Big data を考える(2)ビッグデータの3V
ビッグデータがホットトピックになった要因はVolume(従来の技術では貯蔵できなかったデータ量),Velocity(ITによるデータ更新速度の向上),Variety (データそのもの価値が向上したことにより生まれた豊富な新種のデータ)という3つのVに注目が集まったからだと言われています.それらをコントロールできるようになった現代であれば,データを分析したり活用したりすることで新たな価値(イノベーション)を生みだすことができるのではないかという期待(というより希望的な観測)から起きたブームだと個人的には思っています.
一般的に,データを分析する目的は大きく分ければ2つに大別できます(これも個人的な見解だとは思いますが).1つはデータが表す観測対象の「平均」的な姿の把握,もう1つはデータの中に潜む特殊な構造の発見です.このことは,ビッグデータに対しても同じことが当てはまると思います.今回は前者の「平均」的な姿に話を絞ってビッグデータ分析を考えていきます.
データ分析をするということは,データが表す対象を明確に定めることです.例えば中古マンション価格の成約データがあるとしましょう.そして,そのデータでは,成約したある中古マンションの1つの部屋について,成約日,住所,築年数,新築時価格,間取り,成約価格が一つのレコードを形成しているとします.つまり,データ中の各レコードはある中古マンションの属性の並びであり,観測対象は「ある中古マンションの成約価格」ということになります.そして,データ分析の目的である観測対象の「平均」的な姿の把握とは,ある中古マンションの成約価格の「期待値」をシステマティックに求めることのできる数式をデータから発見することといえるでしょう1 .
それでは本題に戻り,この中古マンション成約価格のビッグデータを作り,成約価格を予測する統計モデルを作るという課題を考えてみます.3VのうちのVariety を考えるのであれば,それは中古マンション成約データに対して新たなデータを組み合わせて価格予測の統計モデルを作成することに相当します.たとえば,駅の住所データを組み合わせればそれぞれのマンションの最寄り駅や徒歩分数が判明しますし,標高データがあれば最寄り駅とマンションの間の移動時の高低差がわかります.これらの要素は都内近郊であれば中古マンション価格に大きな影響を及ぼしますので,価格予測の統計モデルに良い影響を及ぼすことが想像できます.
次にVelocityを考慮に入れましょう.それは価格予測の統計モデルに常に最新の成約データを反映させてモデルを更新することを意味します.また,Volumeを実現するとは何を指すでしょうか.それは,価格予測の統計モデルのパラメータ推定に使えるデータの量が多くなることを意味するでしょう.つまり,これらの2つは統計モデルの即時性や正確性を反映しています.これらは一見するととても重要そうな内容に思えます.しかしながら,(横内研究室の博士学生と研究してきた不動産データ分析の中の話ではありますが)中古マンションの成約価格を予測する統計モデルを作るという視点では,Velocity と Volumeを積極的に実現することが,むしろ精緻なモデルを作るうえでの邪魔になることがわかっています.
たとえば,中古マンションデータは人間が入力していますので,成約データには必ず間違った記録が潜んでいます.そのため,即時性を意識してリアルタイムにデータを適用することは,モデルに対して間違った情報を反映させてしまうことになり,結果として極めてリスキーなシステム運用を強いられる可能性があります.また,成約データを長期間記録していくと,価格決定のメカニズムが経時的かつ劇的に変化する地域が出てきます.そのため,いくらデータのボリュームがあっても,すべてはデータモデリングに用いず,むしろ直近のデータだけを使ったが良い結果を生む地域やマンションは数多くありました.
読者の皆様の中には,これらの問題は,機械学習(含むディープラーニング)を使えば半ば自動的に解決してくれるのではないかという意見もあるかもしれません.しかしながら,システム運用という観点では両者に大した違いはなく,機械学習でも異常値を学習させれば当然変な答えを出しますし,経時的に価格構造が変化しているものに対してもいつでも機械学習が即時的に柔軟な対応をするわけではありません.その上,機械学習の場合は,単純な統計モデル2にくらべて構造の変化が視覚的につかみにくいので,問題が発生した時に原因がつかめず,運用はさらに厄介さを増します.
このように,データ分析やAI開発においてデータの量,多様性,即時性などをやたらと気にするケースが実務でも目立ちますが,これらはデータ分析の目的によってはむしろ障害になることがあるということは覚えておいて損はないと思っています.
次回のコラムでは,今回扱えなかった「データから特殊な関係を見つける」という観点でビッグデータの3Vをさらに考えてみたいと思います.
1成約価格を示す確率変数の期待値は数学でも平均と呼びますので,統計モデルの探索は平均の把握に相当しています.
2たとえば,線形回帰モデルや一般化線形回帰モデルを想像してください.
著者:横内大介 准教授(一橋大学大学院 )
編集:ADSリサーチアソシエーション事務局
※当サイト内コンテンツの無断転載・無断使用は禁止です