実践データ解析--その3 vuleta a espana 個人総合途中経過に関して--
目的
最近流行している、スポーツデータのビジュアライゼーションを行ってみる。 今回は事例として、先日開催されたVuelta a Espanaを例にする。 自転車のレースは、
- 誰が、
- どこのポイントを、
- 何位で通過したか、 また、
- その際の所要時間は何分か??
を基本的に必要なデータとする。そのため、時空間データとして扱うには好例なのではなかろうか...が、思いの外、データ整形が難航している。
(特にステージレースの場合は、そのステージに関しては、そのステージの、総合に関してはそれまでのステージの合計で算出されるため、想像以上に、すごいことになっている)
特に、今年のブエルタは展開が荒れているし...どうなるかの、予測モデルを組む前に、今、どうなっているか??をまず把握したい。
手段
pythonによるデータ解析入門とRによる時系列分析入門とRクックブックを用いる
方法
2015/09/04現在時点で第12ステージまで終了しています。
- これはサンプルになります。
マーカーをクリックすると、個人総合の順位で並べ替え済みの状態で、下記のレコードを表示します。
- 選手の名前
- 出身国
- 所属チーム
- 先頭との時間差
- geotagは公式がpngなので、必然的に眼grepです。
- 集団ゴールの場合は、通常タイムが空欄で表示されますが、00:00:00となるように埋めてあります。
- 各ステージ毎に、その集団の先頭のゴールした時刻とのタイム差を集団に対して適応します。
- 各ステージ毎の総和が、個人総合の第Nステージの結果になります。
- 前行の仕様は、学習機にかけて脚質や簡易型のホワイトレポートを作成するために強制した仕様なので、解除可能です。
- 第7ステージは、リザルトがよく分かりません。
- 第1ステージはTTTなので、個人総合の対象になりません。
結果
後程、blogに移行して、各種検索機能などを構築する予定です。たぶん...
結論
レースは後半が面白いですが、ライブラリ開発の後半戦はクソ