人材育成コラム

リレーコラム

2020/02/20　(第117回)

データは集めれば価値が出るか？

テクノスデータサイエンス・エンジニアリング株式会社　執行役員　常務

池田　拓史

データは救世主？

　「企業がビジネス環境の激しい変化に対応し、データとデジタル技術を活用して、顧客や社会のニーズを基に、製品やサービス、ビジネスモデルを変革するとともに、業務そのものや、組織、プロセス、企業文化・風土を変革し、競争上の優位性を確立すること」、これは経産省によるDXの定義である。ビッグデータ・ブームは終息したかに見えたが、DXの盛り上がりとともに再びデータに対する注目が集まり始めているようだ。「データをプラットホームに集めれば価値が出る」「データをつなげれば価値が出る」「データを流通させれば価値が出る」「データに誰でもアクセスできるようにすれば価値が出る」「データは第二の石油」……。これらの言動を見ているとまるでデータは救世主のようだが、実際のところデータを集めれば企業はビジネス環境の激しい変化に打ち勝てるのかだろうか？本稿ではデータサイエンティストとしての立場から「データの価値」の実際を整理したい。

データをモデルに変換する必要がある

データに価値があるケースをまずは二分しよう。
（1）単独のデータに価値があるケース
（2）集団としてのデータに価値があるケース

　（1）のケースとしては、例えば競合他社の顧客リストなどの機密情報やインサイダー情報などがあるだろう。このようなデータは流出させるはずもないので集めることもできない。一方、社内の機密情報であれば部署間で連携して利用することは可能だが、それは情報インフラの整備が遅れているだけである。その理由は個社さまざまであろう。どちらも本稿の考察からは除外したい。人々が救世主として期待するデータの価値とは、個々のデータの価値は薄いが、集団となったときに価値があるケース、つまり（2）であろう。

　「集団としてのデータが価値を生む」とはどういうことだろうか？　データとは現実が取りうる姿の一コマを切り取ったものである。複数のデータを集めると、現実が取りうる姿をより正確に推定することができる。このような推定された現実のことを、われわれデータサイエンティストは「モデル」と呼ぶ。データが少なく単純であれば、人間は頭の中にメンタルモデルを作りそこから現実に対する何らかの知見を引き出すことができる。データの数が多く複雑である場合には、AI技術を利用したほうがよいだろう。モデルを作るのが人間であれAIであれ、（2）のケースとは実は「モデルが価値を生む」ケースであると整理することができる。データを集めただけでは価値は生まれない。価値を生むためには誰かがデータをモデルに変換せねばならない（注1）。

（注1）「モデルが価値を生むための三つの機能」で述べた通り、モデルは人間の勝手な仮説でも構わない。正確にはモデルとデータの相互作用が価値をもたらす。

モデルが価値を生むための三つの機能

　モデルには三つの機能がある。それは、(I)確率計算機能、(II)尤度（ゆうど）計算機能、(III)情報圧縮機能である。データサイエンティストはこれら三つの機能を使ってビジネス課題を解決していくことをなりわいとしている。詳しくは参考文献を見ていただきたいが、ここではそれぞれの機能と活用法について簡単に説明しよう。

　（I）確率計算機能とは、生成済みモデルを利用し、指定した条件下で特定の事象が起こる確率を計算できる機能である。いわゆる予測モデルや識別モデルがこれにあたる。未来が予測できたり、識別を自動化できたりすれば価値が生まれるだろう。注意点としては、iSRF通信第176号で詳述した通り、完全データが必要であり適用可能領域が限られることである。技術的にはleakageによる失敗にも注意しなければならない。

　（II）尤度計算機能とは、生成済みモデルを利用し、指定した事象（複数事象の組み合わせでも可）が出現する確率（＝尤度）を計算する機能である。「尤度」とはあまり聞きなれない言葉だが、手もとのデータと生成済みモデルの間の当てはまりのよさ、悪さのことであると理解してよい。AIでは異常検知やレコメンデーションが代表的な利用法であり、これらが価値を生むシーンも多いだろう。AIを使わずに人間が作成したモデルについて尤度計算機能を適用することもできる。いわゆる統計的仮説検定である。人間が仮定したモデル（例えば新たに販売する〇〇を主に購入するのは△△ではなく□□な顧客だろう）が正しいかどうかを、手もとに得られた少数のデータからスピーディーに検証してその後の意思決定に生かすなどの使い方である。ビジネスの意思決定において仮説検証に価値があるのは言うまでもない。間違った現状認識のまま意思決定を行えば、失敗する可能性が高まるからである。

　（III）情報圧縮機能とは、大量で複雑なデータを、記述量の少ないシンプルなモデルで代替できる機能である。人間は大量のデータを把握することは難しいが、シンプルなモデルであれば理解することができる。モデルは現実の写し絵なので、モデルを通じて現実世界における傾向や性質を読み取ることで価値を生むこともできるだろう。代表的なアルゴリズムは主成分法やクラスタリングなどの次元削減手法や、線形モデルや潜在変数法、決定木などの構造モデルの使用だが、そこから何らかの知見を引き出すためにはアルゴリズムにおける専門知識がどうしても必要になる。

データが価値を生むための前提条件

　上に述べたパターンに乗せることができれば、集めたデータから価値を引き出すことは確かに可能である。しかしながら、この工程は単にデータを集めたりつなげたり、訓練されていない多くの人たちに公開することによってひとりでに実現できるものではない。そこにはビジネス意思決定に携わる人間と分析の専門家のタッグが必要である。これに関してはiSRF通信第176号も参照してほしい。これを「人材の障壁」と呼ぼう。

　前提となるのはこれだけではない。データとは、現実が取りうる姿の一コマを切り取ったものであることを思い出してほしい。例えば画像データはバイナリデータとして収集されるが、バイナリデータは単なる0と1の羅列であり、どのように画像に復元するのかの情報がなければデータの価値はない。明らかに、データだけでなくデータと現実とのひもづき方に関する情報も必要である。これはメタデータと呼ばれる。一般にはメタデータの生成は自動化できず、人間が関与しなければならない。さらに現実は常に移り変わるため、メタデータは常にメンテナンスされなければならない。メタデータの生成やメンテナンスにはかなりのコストを要することもあるだろう。これを「メタデータの障壁」と呼ぼう。

　さらに、現実が取りうる姿の一コマを切り取る角度や範囲が限定されていれば、現実を再現することはできない。データはなるべく多面的に収集する必要がある。それに応じてメタデータの生成やメンテナンス作業も膨れ上がる。これを「情報欠落の障壁」と呼ぼう。

　以上の議論から、データを集めることは価値につながりうるものの、その前には「人材の障壁」、「メタデータの障壁」、「情報欠落の障壁」の三つの障壁が立ちはだかっているのである。

DXに返る

　現在のトレンドでは、データを集めるのはDXを推進するためであろう。筆者はDXにおいて常々見過ごされがちな観点があると感じるので最後に述べておきたい。DXとは、顧客が自由に売り手を選べる時代において、売り手が顧客に自らを選んでもらうための方法論である。顧客に選んでもらうためには、顧客体験を中心にした商品やサービスを提供すべきであり、そのためには顧客の気持ちを正確に把握し、顧客体験を向上させるための意思決定をし続けることが重要である。売り手側が勝手に描く顧客像ではなく、現実の顧客の気持ちを知るためには、現実の写し絵であるデータやモデルを活用する必要がある。この意味で、AI人材はDX推進に不可欠であると言えるだろう。

参考文献

「DX推進指標」とそのガイダンス　令和元年7月　経済産業省
「IoT/AIの活用は製造業に革新をもたらすか？製造現場・工場におけるIoTの利用と可能性」情報機構（2018/1）「AIのための各種モデル技術は何をやっているのか」
https://www.kaggle.com/dansbecker/data-leakage

この記事へのご意見・ご感想や、筆者へのメッセージをお寄せください（こちら ⇒ 送信フォーム）