コラムデータ分析

Big Dataを考える(1)

Big data を考える(1)

 情報技術の発展により,物理的な計算時間がネックとなっていた数値計算手法に光を当たるようになりました.たとえば,ベイズ統計学を基礎とした新しい統計手法が次々と提案されている現在の状況は,その一つの証左といえるでしょう.さらに,CPUの速度やメモリ,ハードディスクの容量も飛躍的に大きくなったことで,これまでは紙に保存するか,もしくは捨てられていたデータも容易に保存できるようになりました.このような数値計算の発展と数々のデータの出現は,ビッグデータという新たなキーワードを生み出しました.このビッグデータは,2012年3月にアメリカ政府が発表した研究開発イニシアティブの中の一つとして位置づけられており,その環境整備に対してアメリカ政府から巨額の予算がつけられたと記憶しています.当時はちょうどオバマ大統領が誕生してまもなくの時期でした.オバマ大統領は,ご自身の選挙活動においてビッグデータ分析を重視し,そのおかげで当選したと言われていますから,ある意味では当然の政策といえるでしょう.また,ビッグデータやそれを活用するデータサイエンティストという言葉が世界的な認知を得たのもやはり2012年前後だと思います.以下の図は Google Trends で「ビッグデータ」というキーワードを検索した結果ですが,やはり2011年から2012年くらいにかけて急激に検索数が増えていることが見て取れます.

 

 

 このように,ここ10年くらい注目されているビッグデータですが,この語はなんとなくサイズが大きいデータという意味で捉えられがちです.しかしながら,サイズとしてもっと大きな意味をあらわすlarge でも huge でもなく,あえて big という形容詞が選ばれていることには注意を払ってもよいのではないでしょうか.このことは,実は,私の師匠であり,日本におけるデータサイエンスの提唱者である慶應大名誉教授の柴田里程先生の研究室を訪問した際に,当時,私の行っていたデータ統合環境(統計ソフトウェア)の研究に関連してビッグデータの話題になり,先生からbig dataの意味を表面的にとらえるなとの指摘を受け,その際に先生や柴田研究室のメンバーと議論した内容になります.

 英語の意味で考えれば,先の形容詞の中では huge が最も大きなサイズを意味しますが,huge data という形で問題提起はなされていません.また,big data のブームが起きる前は,いわゆるサイズが大きくて扱うことができないデータは,学術論文の中でも huge data, a large amount of data, large collections of data といった語で表現されていたほうが多かったように思います.

 英語で a big man と a large man という語を比べると,前者はいわゆる「大物」の人を指す語であり,後者は単に体格が大きい人を指します.つまり,bigには単純に計量することができない「重要」という意味が含まれていることがわかります.他にもBig bang (ビッグバン) や a big deal (会社の経営に影響を与えるような重要な取引) といった big を使った語にも同様の意味合いが込められています.そうだとすれば,big という語を使い,いわゆる Big data という問題を提起した人たちは,少なくともこのbigという形容詞に対して,重要なデータ,もしくは今後重要になるであろうデータという意味を込めたとしても不思議ではないと考えます.

 単にサイズの大きなデータを統計的に扱うだけであれば,適切にサンプリングしてデータサイズを小さくすればおおよそのことがわかります.しかしながら,それだけでは足りない重要な事柄があるからこそ,ビッグデータというイシューが提起されその分析がクローズアップされたはずです.次回のコラムでは,ビッグデータ分析を私なりに整理し,それぞれの分析でどのような効果が期待できるのかを皆さんと俯瞰してみたいと思います.

著者:横内大介 准教授(一橋大学大学院 )
編集:ADSリサーチアソシエーション事務局

※当サイト内コンテンツの無断転載・無断使用は禁止です