コラムデータ分析

データの視覚化(2)時間の視覚化

データの視覚化(2)時間の視覚化

 どのようなものを観測しデータとして記録しようとも、「時間」という情報はデータの中に存在します。いやいや、中学校や高校など数学の教科書に出てくるような「あるクラスの学生全員の身長と体重」のようなデータ例の中に時間の項目は一切入っていないよ、などと思うかもしれませんが、記録されているかを別にすれば身長と体重を測定した「計測日」という時間情報はデータの背景に必ず存在しています。もし新学期ごとに身体測定を記録して蓄積するのであれば、いずれ計測日はデータ列として記録されることになるでしょう。その意味では、実社会で記録されるデータは、データの中に記録されている、されていないにかかわらず、常に時間という概念から切り離すことはできません。
 このように観測をするという行為は常に時間が付きまとうわけですが、その時間は観測者によってコントロールできる場合とそうでない場合があります。たとえば、先の例の身体測定は実施する日時を観測者が決めることができます。一方で、地震の場合、発生する時間を観測者が事前に決めることはできません。つまり、同じ時間のデータだとしても、そこにはランダムとノンランダムの違いがあるというわけです。

 株式取引を例にしてもう少し考えてみましましょう。月次終値のデータの場合、観測者が設定した月ごという時間間隔で株価の終値を観測していますので、観測時点はノンランダムに発生し、そのときの価格はランダムに決まると考えられます。これは、人間には観測できない連続変化する株式の真の価格系列が存在し、それを観測者が月末という決まった時点で観測しているとみることができるので、通常は下左図のようにX軸は等間隔時間、Y軸のランダムな価格として各点をプロットし、それを折れ線でつないで価格が連続であることを表現します。これがいわゆる時系列図と呼ばれるものです。

 一方、Tickデータとよばれる一回一回の取引時点とその価格などを記録したデータであれば、取引時点はランダムに発生しますし、そのときの取引価格もランダムに決まります。先の時系列図と同様に折れ線で描くこともできないわけではないのですが、発生した時間間隔のランダム性が強調されるようにX軸上に発生時点を記録し、下右図のように価格のランダムな変化をY軸に沿った縦棒の長さであらわす方法が一般的です。これは先の折れ線の時系列図と区別するために、点過程図と呼ばれることがあります。
このように時間軸上の点のランダムネスの有無で、時間データの散布図は2つの種類に分かれます。ぜひ、皆さんがグラフを作るときは、ぜひ時間のランダムネスにも注意を払ってください。

 今回は時間の視覚化がコラムのタイトルですが、やや紙面が余っているので、最後にこの種のデータのモデル化についても簡単に取り上げましょう。
データ分析の目的の多くは、ランダムに発生する観測値の裏側にあるメカニズムを説明することです。データサイエンスの真髄ともいえる探索的データ解析では、多様なグラフによるデータの視覚化を試みながら、なるべく簡潔な統計モデルで説明できそうなランダム性がデータに潜んでいないか、もし一部説明できない部分があったとしても外れ値とみなすことが可能か、などを常に意識してデータを眺めます。今回の月次データの例では、価格変動には大きな傾向(緩やかな変化)はなく、非常にランダムな変動していることが視覚的に確認できますので、この変動を直接説明する統計モデルの構築を通じてデータ分析をすることになるでしょう。時系列データ分析にある程度慣れている人であれば、すぐに自己回帰モデルや移動平均モデルを使うことを思いつくかもしれませんが、今回のケースでは定義域が正に偏っているのでそのまま単純に適用することはできません。この偏りをどのようにモデルで吸収するか(とりあえず簡便に差分や収益率などのデータ変換をするのか、それとも変換せずにINARのような特殊な時系列モデルを検討するかなど)は目的に合わせて十分に検討する必要があるでしょう。一方で、Tickデータでは発生時間と価格というランダムな観測対象が2ついますので、2つの確率変数を意味のある形で結び付けて説明するやや高度な統計モデルを用意する必要があります。データ分析者や何かしらの工夫や仮定をおくことで2変量確率分布のデータへのあてはめを考えることになるわけですが、たとえば、発生時点の系列は離散分布に従い、価格変動の系列は連続分布しているとみなすという仮定が自然だということになれば、複合ポアソン過程に代表されるようなマーク付き点過程モデルが第一候補となるでしょう。ほかにもコピュラ(接合関数)を使う方法も考えられます。
 
 最後は単なる道具の紹介になってしまいましたが、このコラムの中で取り上げた統計モデルの概要や使い方については、いずれ新しいコラムの中で紹介できればと思っています。

著者:横内大介 准教授(一橋大学大学院 )
編集:ADSリサーチアソシエーション事務局

※当サイト内コンテンツの無断転載・無断使用は禁止です