読者です 読者をやめる 読者になる 読者になる

GeoJackass

ちゃらんぽらんの絶対領域は、是を頑なに堅持

pythonとRによる時系列解析の練習-その1-

目的

統計学のとても基本的な概念のおさらいと、基本的な時系列解析に関しての復習を行うこと 当時はRで学習していたのだが、Rの新しいラブラリや、pythonのpandasやmatpltlibに関して、もうちょっと慣れること

手段

pythonによるデータ解析入門とRによる時系列分析入門を用いる

何はともあれ、描画をしてみる

pythonの場合

stock_draw

なるほど、確かに描画が出来た。

Rの場合

timeseries data

なるほど、確かに描画が出来た。

ここまでは、時系列のデータを描画する。いわゆる、ビジュアライゼーションである。
さて、ここからが解析にまつわる疑問である...

pythonによるデータ解析入門では、調整後終値の前日との差額を算出し、パーセント変換した後、相関の計算を行う

calc corr

ここで、よく分からなくなってしまう。それは、時系列データで異なる2つ以上のデータの相関の意味である。

具体的な例を考えよう

僕が習った相関の例
  • ある日、100人の学生にテストを行いました。科目は、「数学」・「物理」・「英語」の3科目でした。

この時、数学の得点の高い学生は、物理の得点が高い傾向がみられました。 よって、この2科目の間には、関係性があります。

case1
  • ある場所で2012/04/01に生まれた人間の赤ちゃんがいました。彼の体重を毎日13:00に測定し、書き加える形で記録しました。これをbaby.csvとしました。
  • 北海道日高地方で2012/04/01に生まれた仔馬がいました。この仔馬の体重を毎日13:00に測定し、書き加える形で記録しました。これをuma.csvとしました。

この時に、2015/07/30にbaby.csvuma.csvのデータを比較すると、相関がみられました。
よって、このふたつデータの間には関係性があります...

...そうなるのか??

暫定的な納得

そもそも論として、相関というのは、ある時点において測定された複数事象のうち、いくつかの間に発生する「関係性の結びつきを示す値」という理解をしていたのだが、どうもそうでもないようである。 では、時系列データにおいて相関を計算することに意味がないのか??と言えば、そうでもないような気がする。それは、各企業の、特に同業の場合には、何らかの要因(例えば、トマトが豊作だった場合にトマトに関連する企業)の株価が同じような値動きをすることが、少なくないであろうと思われるためである。