pythonとRによる時系列解析の練習-その1-
目的
統計学のとても基本的な概念のおさらいと、基本的な時系列解析に関しての復習を行うこと 当時はRで学習していたのだが、Rの新しいラブラリや、pythonのpandasやmatpltlibに関して、もうちょっと慣れること
手段
pythonによるデータ解析入門とRによる時系列分析入門を用いる
- 練習用のサンプルデータとして、以下の株価データを使用する
https://github.com/pydata/pydata-book/blob/master/ch09/stock_px.csv
何はともあれ、描画をしてみる
pythonの場合
なるほど、確かに描画が出来た。
Rの場合
なるほど、確かに描画が出来た。
ここまでは、時系列のデータを描画する。いわゆる、ビジュアライゼーションである。
さて、ここからが解析にまつわる疑問である...
pythonによるデータ解析入門では、調整後終値の前日との差額を算出し、パーセント変換した後、相関の計算を行う
ここで、よく分からなくなってしまう。それは、時系列データで異なる2つ以上のデータの相関の意味である。
具体的な例を考えよう
僕が習った相関の例
- ある日、100人の学生にテストを行いました。科目は、「数学」・「物理」・「英語」の3科目でした。
この時、数学の得点の高い学生は、物理の得点が高い傾向がみられました。 よって、この2科目の間には、関係性があります。
case1
- ある場所で2012/04/01に生まれた人間の赤ちゃんがいました。彼の体重を毎日13:00に測定し、書き加える形で記録しました。これをbaby.csvとしました。
- 北海道日高地方で2012/04/01に生まれた仔馬がいました。この仔馬の体重を毎日13:00に測定し、書き加える形で記録しました。これをuma.csvとしました。
この時に、2015/07/30にbaby.csvとuma.csvのデータを比較すると、相関がみられました。
よって、このふたつデータの間には関係性があります...
...そうなるのか??
暫定的な納得
そもそも論として、相関というのは、ある時点において測定された複数の事象のうち、いくつかの間に発生する「関係性の結びつきを示す値」という理解をしていたのだが、どうもそうでもないようである。 では、時系列データにおいて相関を計算することに意味がないのか??と言えば、そうでもないような気がする。それは、各企業の、特に同業の場合には、何らかの要因(例えば、トマトが豊作だった場合にトマトに関連する企業)の株価が同じような値動きをすることが、少なくないであろうと思われるためである。