トピックス

ヒトとデータを巡るあらゆる営みを解明
――未観測事象のデータ化とデータ流通エコシステムのデザイン――



感染症対策で重要になる人々の行動パターンから、スーパーマーケットで日々売れている品物、市街地の街路灯の設置場所まで、社会には活用を待っているデータが多くあります。埋もれているデータが掘り起こされ、社会の中で課題を解決する役にたつためにはどんな「データの交通整理」が必要なのでしょうか? 染谷隆夫工学系研究科長が研究の成果と未来、発展のために必要なことについて語り合う対談の第11回では、大学院工学系研究科 システム創成学専攻の早矢仕晃章先生に人のつながりとデータ活用について語っていただきました。

染谷:データを使って社会を安全に、快適に、便利にしていく、社会と人の暮らしをスマート化する、というのはDX(デジタルトランスフォーメーション)の一丁目一番地です。先生は新型コロナウイルス感染症の際に、政府と協力した取り組みをされたそうですね。

早矢仕:2019年末から世界的に流行しているCOVID-19の理解と対策のため、分野を横断したデータ流通・共有の重要性が理解されるようになりました。例えば、米ジョンズ・ホプキンス大学などの研究機関や各国政府は感染状況などの有益なデータをオープンデータとして公開しています。ですが、そのほとんどの営みがデータ提供者の一方的な情報提供に留まっており、本当にほしいデータは取られていない、または手に入っていないのが現状です。私は内閣官房プロジェクトの大澤教授のチームに参加し、人と人との接触の動向だけでなく、人と物の接触行動に着目しました。このデータは未だデータとして世の中に存在していないデータでした。そこで、私たちの開発した技術によって「人はどんな場所に行き、どんな物に触っているのか?」というデータが必要だということを突き止め、実際に調査とデータセット設計を行い、人の行動と物への接触の実態把握と感染拡大期における消毒の優先順位付けの提案を行いました。

人・物接触データのような未だデータ化されていない事象、すなわち未観測事象の潜在的データを、私たちは「未踏データ」と呼んでいます。私たちはこの未踏データを如何に設計し、人間の意思決定に役立てるのかというテーマに挑戦し、様々な支援技術を開発してきました。とはいえ、未知の現象を観測することは極めて難しいタスクです。そこで未踏データを得る一つのアイデアとして、過去に様々な人が設計・取得したデータに関するノウハウを集合知として集めました。これにより、「ここでこんなデータを新たに取ったほうがよい」「この領域にはまだデータが存在しない」ということを浮き彫りにすることが可能となりました。

例えば、ブラックホールは直接観測することができないですが、その周りで起きている事象を観測することで、ブラックホール自体がどのようなものなのか理解することができますね。同じように、まだ観測できていない事象や未知の現象についてのデータが欲しいとき、古今東西の様々なデータに関するノウハウを収集し俯瞰的に分析することで、欲しいデータの周りにある情報から当該データの構造と特徴に当たりをつけることができます。これが未踏データの表出化であり、人間の役に立つ「人を系に入れたシステム」の仕組みにつながっていくわけです。さらにこの仕組みを拡張すれば、自分が欲しいデータを誰がどこに持っているのかということを検索したり、推定したりできるようになります。

染谷:データに付帯している知識を、そこに存在する人を介してつなげていくわけですね。それは大変面白いと思います。先生は「人間を系に入れるシステム」という発想は非常に大事なことだと思いますが、データの中に人間を入れないとどのような課題が発生してきてしまうのでしょうか?

早矢仕:現在、データカタログ標準化やIoTデータ流通、スマートシティのようなインフラづくりが進んでいます。これらの取り組みは人の要素や曖昧さをできるだけ排除しようとした仕組みになってしまっているように思います。しかし、それを使い、生活し、行動する主体は私たち人間なのです。私たちの社会には、データだけが無機質に存在するのではなく、それを活用する人の仕事や生活などの営みであるエコシステムが存在しています。そうした人たちのニーズをコミュニケーションによって顕在化し、データだけでなく、それを活用する知識をイノベーションに結びつけることを支援する方法が必要です。さらにそれを構造化し、再利用できるようなシステムも必要になります。データ利活用知識基盤と私たちが呼んでいるものです。これによって、今までつながっていなかった人たちをデータを介してマッチングしたり、今まで観測できていなかった事象への示唆を得ることができます。

染谷:今は「ここにデータがある」とまだ明確に認識されていないけれども、周辺の事情を考えるとあるに違いない、と推測できるような重要なデータを探し出し、補完するということなんですね。ただ、データは貴重だということはたしかですが、感染症のようにプライバシーの問題で隠さないといけない、あるいは企業にとって社外秘なので公開できないということがあって大きなデータ利活用のボトルネックになっていますよね。また、バラバラのデータが沢山あると利用が難しいのではないでしょうか?

早矢仕:はい。プライバシー問題や企業や個人が持つデータの二次利用はまさにデータ利活用の大きな課題です。そこで、私が一緒に研究している大澤幸生教授の研究室では、大澤教授が発明した「データジャケット」という手法をコアに、様々な応用技術を開発してきました。実データはプライバシーやビジネス機会損失のリスクから公開できないけれども、データの名刺は情報交換のために公開できる。「誰が、どこに、どんなデータをどんな形で持っているのか」という、異業種間でデータの概要情報を共有する仕組みです。

染谷:カタログ情報のようなものですか?

早矢仕:そうです。ただ、一般的なデータカタログよりは人に優しいフォーマットになっており、様々なドメインの、多様な構造のデータを統一的に扱うことができます。機械可読性も保証しているで、「あの人はこんなデータを持っている」ということやデータの相性なども計算することができます。さらにはデータとデータをつなぐ新しいデータの存在を推定することもできます。データ自体を扱うのではなく、データのデータ、すなわちメタデータを扱うことで、個人や企業の機微な情報を直接交換するのではなく、データの使い方や、データを使うことでどんな問題が解決できるのか、ということを議論できるようになります。

例えば、医療データは一般には公開できませんが、人を系に入れ、データを介して人が出会う場を設計することでデータ交換の合意形成を促進できます。実際のデータは機微な情報であっても、「こういう目的だったら使って良いですよ」という新しい共有情報、つまり議論の着地点を模索できるようになるわけです。

人と人との対話がデータのつながりをつくる

染谷
:「データジャケット」というコンセプトによって、データのつながりが生まれていくということは理解が深まってきました。とはいえ、現在まだ無いデータを予測するとなると、貴重なデータほど持っていても見せられない、持っていることそのものを知られたくない、という状況があり得ますね。医療データの場合であっても、データを扱うルールを共有している仲間が集ってこないとデータを介してつながることが難しいように思います。そうした課題はどのように乗り越えるのでしょうか?

早矢仕:それには技術的な解決方法と、草の根的な方法の2つがあると考えています。技術的な方法は、データが「変数」というものから構成されている性質を利用します。私という個人は年齢、性別、身長、体重、血液に関するさまざまな情報、といったものを持っています。しかし、自己紹介のときに必要なのは名前と所属とメールアドレスですね。人がさまざまな情報を文脈によって出し方を使い分けているので、変数レベルで分解すると「こういう文脈ではこういう変数のセットが現れる」という共通性が存在することがわかります。例えば、「天気」は様々な変数を持っていますが、天気を見て今日着ていく服を選ぶという文脈では、最高・最低気温、降水確率、地域名といった変数が同時に出現しやすいですよね。このような特徴をモデル化すると「こういう場合はこんなデータがこんな変数を持っているだろう」ということをある程度推定することができます。データそのものではなく、データを変数という単位で分解し、その構成要素を再度データとして結晶化したとき、未知の事象のデータを集める計画を策定することができます。これを応用したのが、先ほどの人・物接触データ設計のような未踏データの表出化です。

一方で、草の根的な泥臭い方法としては、データの価値の共有化があります。そうしたネゴシエーションの形成ツールとして、対話の場であるワークショップが有効です。ワークショップでは、あるテーマに従って参加者を集め、「このデータはこんなふうに使える」「このデータをあなたが持っているならば、こういう問題を解決することができる」ということを議論していきます。これはデータジャケットを用いたワークショップ技法であり、私たちはInnovators Marketplace on Data Jackets(IMDJ)と呼び、様々な企業や地域で実施してきました。そして、昨年からのコロナ禍で対面のワークショップ実施が難しくなったことから、これをオンラインで実施できるシステム作りました。Webシステムであれば世界中の人々が自由なタイミングでデータ利活用の議論に参加できるので、データの利用の仕方がノウハウとしてどんどんデータベースにたまっていくというメリットがあります。

ワークショップでは、「あなたのこういうデータは、こういう問題に使える」ということを教え合うことで、データの価値発見が促進され「ならば私のデータを使ってください」という協創が実現します。以前に開催したワークショップでは、「暗い道は怖いので通りたくない」というニーズに対して、「地図の上に街路灯情報を組み合わせることで、最も明るくて安心・安全に感じられるルートを提案する」というソリューションが提案されました。その段階では街路灯データは共有が難しい非公開データでしたが、行政や事業者に対してデータの価値を説明したところ、街路灯データの共有とアプリケーションの開発が実現しました。このように、データの価値が分からない段階では、誰もがデータ交換や公開を躊躇してしまいます。しかし、データを使うことでこういう便益があります、ということを教え合うことで、今まで出てこなかったデータが出てきたり、つながっていなかった人たちをつなげることができます。これが草の根的なワークショップの大きな効果であると考えています。

染谷:それは素晴らしいアプローチですね。特に、公共性のある目的ならば多くの人の賛同を得られやすいですし、大学が取り組むテーマとしてよいものだと思います。ワークショップというのは、どのように行われて、ツールはどのように使われるのですか?

早矢仕:私たちの提案しているIMDJやリビングラボのワークショップでは、研究者だけでなく、産官学民の様々な方に参加してもらっています。まず、データについて興味がある人たちに集まってもらい、共通の興味関心を言葉にしてもらいます。その中で、データの関係性を表す図を支援的に用います。目的がビジネスならば、それに特化したワークシートを用意して、それに私たちの開発している支援ツールや検索システムを援用し、参加者が自身の関心事を共有化できるような場をファシリテーションしつつ、シナリオをまとめていきます。

染谷:行政に関わるデータ活用の例があるということですが、企業が新しい、よい製品を作るといった場合にも先生のアプローチは有望なのではないでしょうか?

早矢仕:はい、研究室には様々な企業の方々とコラボレーションした事例があります。例えば、あるスーパーマーケットとの共同研究では、ロイヤルカスタマーと呼ばれる顧客がどういう商品を買っているのかを特定したり、商品の季節的な売り上げの変化を理解するなど、今までつながらなかったデータに対する気付きをワークショップで得て、企業に眠っていたデータを意思決定につなげていったことがあります。

染谷:企業がデータを持っていたとしても、それをどう顧客満足度やサービス向上につなげるのかわかっていない場合に、ワークショップの手法を使うことでデータを発掘して利用を広げられるわけですね。

早矢仕:「データは21世紀の石油である」と言われて久しいですが、そうはいってもデータを出すのを惜しんだり、データを死蔵してしまったりといった企業はまだまだたくさんあります。そこで眠っているデータを議論の俎上に乗せ、活用方法や価値を発見することを支援することは、これからさらに重要になってくると考えています。これらがデータのエコシステムとして回ってくると、「あの人が持っているあのデータがほしい」というようなかたちでデータのマーケットプレイスができ、様々な人が自由にデータについて語り、作り、活かせる世界が実現すると思っています。それが、「人とデータを巡るあらゆる営みの解明」という私の研究テーマです。



染谷:先生がデータを扱う研究者を目指されたのはどのようなきっかけなのでしょうか?

早矢仕:小さいころに、父の仕事の関係でフランスにしばらく滞在していました。幼稚園・小学校と様々な人種の友人と日々遊び、喧嘩して過ごしていました。楽しい思い出も多いですが、同時に辛い経験もたくさんありました。そのような中で「人を知る」ということ、特に、人間集団や個人、人種といった社会の営みに大いに興味を持ちました。日本に帰って小学校3年生のころ、当時のロボットブームもあって「工学の研究者になりたい」とアカデミックな世界にあこがれを持つようになりました。数学や算数がすごく好きということもあって、入口はロボットですが、大学に入ってだんだんと社会や人間に焦点を当てて研究をしようと思うようになりました。

染谷:海外での経験がありつつも、小学生のころの夢を実現されているのでそれはすばらしい。ですね。

早矢仕:日本に帰ってきてから、ボーイスカウトの活動の経験も大きいです。大学2年生のときにバングラデシュの農村地域に滞在して、1ヶ月ほど現地の教育や貧困に対する支援をしたのです。ただ、現地の行政の人たちは、「貧困は存在しない」というのです。それは貧困を示すデータや事実を認識できていないことが原因であると、現地の有識者の方に教わりました。つまり、「認識できないものは存在しない」というバイアスが大きな問題だったのです。何を説明するにしてもデータやそれを示す事実がないと他の人を巻き込めないですし、説得力もない。このとき、データの重要性を痛感しました。

そこから毎年バングラデシュプロジェクトを継続し、最終的には日本だけでなく、台湾と韓国も巻き込んだプロジェクトつくって企業からの協賛を得たりしました。今思えば冒険的なこともずいぶんしたと思います。しかしそこで得たものは、新しい研究を立ち上げて、様々な人にアポをとって、コミュニティや、仲間づくりをするという今の自身の研究活動にも大いに役立っています。

染谷:そうした経験がデータの重要性に結びつき、さまざまな課題をデータできちんと人に示せる研究の背景になったわけですね。非常に人の心を動かす経験ですから、先生と一緒に仕事をしたいという人がたくさん現れると思います。

早矢仕:もっと経験を積んで、さまざまな人を巻き込めるようになっていきたいです。コロナの中で国際学会の機会などは減ってしまい、コミュニティづくりで多くの人が悩んでいると思いますが、そこをなんとか乗り越えていきたいです。工学系研究科のコロナ対策支援をいただいたことも力になっています。

染谷:若手の先生方がそのように有効に支援を利用して、コミュニティづくりに活かしてもらっているのは私としても嬉しいですし、仕組みをつくった研究科のみなさんにとってもよかったと思いますね。それでは、先生の今後の展望とチャレンジをしていきたいか教えてください。

早矢仕:私はデータをめぐるさまざまな人間の営みを研究対象としています。ビッグデータが当たり前の現在、データを取る人、分析する人、データを使って意思決定する人、それぞれがバラバラになっています。すると、データを作った人がどういう目的で、どういう世界をどのように切り取ってデータにしたのか、というノウハウが分析する人や使う人にうまく伝わらず、様々なひずみを生み出してしまいます。

おかしなデータを使ってしまったがために変な意思決定につながってしまった、という事例もあります。そこでデータを円滑に、民主化していけるような仕組みをつくり、自由にデータにアクセスできて、機微なデータの交換について交渉できるというように、データがうまく交通整理されるよりよい社会を実現していきたいと思っています。データの背景にある思いや歴史を解きほぐして、人とデータをめぐるあらゆる営みを解明していきたい、より正確なデータ駆動のイノベーションを実現したいと思っています。

染谷:誰もがデータを使えるように、背景にあるものまで見据えて、世の中を良くしていけるように研究を発展させていってください。自分の持っているデータを先生のところに行くとうまく利用される、自分のためにも、社会のためにもなる、そういうレピュテーションにつながって、先生の周囲に集積していくと支援の輪が広がると思います。