Big Dataを考える(3)データに潜む特殊な関係
前回からの続きです.ここではビッグデータ分析の目的の一つである「データに潜む特殊な関係を見つける」というテーマを取り上げます.
ビッグデータのビジネス利用を考えた時,ビッグデータの中からだれもが気が付かない特殊は関係を見つけることができれば,何らかのイノベーションにつながるのではないかと考える人は多いかと思います.前回取り上げた「観測対象の平均的な構造の把握」のための統計モデルのあてはめは,皆さんが日ごろ感じている直感的な構造の実証であり,頻繁に起こる関係の可視化にすぎませんから,特殊な関係を見つけるという今回の目的にはいわゆる古典的な統計分析の手法は直接使えません.そこで開発されたのがデータマイニングという手法です.マイニングとは鉱山から鉱石を掘り出すという意味ですから,データマイニングは,さながらデータという鉱山からの貴重な鉱石(特殊な関係)の採掘ということもできるでしょう.
データマイニングの例としてよく取り上げられる例が「おむつとビール」という話です.この話は,1992年12月23日のウォールストリートジャーナルにのった『Supercomputer Manage Holiday Stock』という記事が由来だと言われています.この記事では「米国中西部の都市のある商店がスーパーコンピュータでデータ分析をし,紙おむつを買う人は同時にビールを半ダース買う可能性が高いという事実を発見した」と報じたそうです.なお,「おむつ売り場のそばビールを置いたら売り上げが飛躍的に向上した」というような話がこの後に続くそうですが,どの小売店で誰が実際に行ったのかなどはよくわかっていません.他にも,この「おむつとビール」の話にはいろいろなバージョンがあるようですが,それらの信ぴょう性は不明のため,しばしば『都市伝説』と揶揄されることもあります.しかしながら,この話がデータマイニングという手法を一躍有名にしたことは間違いありません.そして,巷のビッグデータ分析で求められる特殊な関係の発見というのはまさに第二の「おむつとビール」の発見に他なりません.
このような特殊な相関を発見するデータ分析は,一般にはバスケット分析と呼ばれます.商品の一部に存在する特殊な関係を見つけるのですから,いわゆる被説明変量をいくつかの説明変量で説明するようなオーソドックスな統計分析のフレームワークでは実現できません.そこで,アソシエーションルールとよばれるデータマイニング手法が開発されました.ここではその手法の詳細までは解説しませんが,いわゆる統計ソフトウェアであれば簡単に計算できます.興味のある方はぜひ調べてみてください.
厳密には特殊な関係を発見する手法というわけではありませんが,いわゆる線形回帰モデル(回帰分析)のようなフレームワークの分析でも,データに潜む特殊な関係が見つかることがあります.たとえば,線形回帰モデルでのあてはめではいわゆる残差の大きい記録(外れ値)が出てくることがしばしばありますが,それら記録を調べてみると特定のパターンが発見されることがあります.私が実際に行った宅地価格の回帰分析(ヘドニックモデル)で,それらの外れ値を丹念に調べたことがありますが,特定の駅だけ価格の予測を大きく外しているような傾向がありました.さらに詳しく調べてみると,駅の北側のエリアの宅地価格については,駅からの徒歩分数があまり反映していないことがわかりました.通常は最寄り駅からの距離が遠いほど安くなるのですが,データを見る限りその駅では駅からの距離に応じた価格減衰はほぼなく,むしろやや高くなっている感もありました.
現地に赴いて最終的にわかったことですが,駅の周辺にはいろいろな工場が数多く建っている工業地域であり,むしろ駅の北側数キロ離れたとところにあるショッピングモールの周辺のほうが住みやすいので,宅地としての価格が維持された特殊な現象でした.このような特殊性の発見は,たとえば新たな宅地開発と販売,ショッピングモールの誘致などという不動産実務の観点から言えば大変重要な情報になります.
特殊性を発見するためには,初めからそれらを見つけにいくデータマイニングの手法を適用することはもちろん第一手です.しかし,平均構造の把握の際でも外れ値を通じて新たに発見されることもあるので,統計モデルをあてはめたり機械学習を適用したりする際は,予測を外した記録をそのままにせず,ぜひ外れた原因を探索してみてください.そこには宝の山が隠れているかもしれません.
著者:横内大介 准教授(一橋大学大学院 )
編集:ADSリサーチアソシエーション事務局
※当サイト内コンテンツの無断転載・無断使用は禁止です