読者です 読者をやめる 読者になる 読者になる

GeoJackass

ちゃらんぽらんの絶対領域は、是を頑なに堅持

実践データ解析--その3 vuleta a espana 個人総合途中経過に関して--

目的

最近流行している、スポーツデータのビジュアライゼーションを行ってみる。 今回は事例として、先日開催されたVuelta a Espanaを例にする。 自転車のレースは、

  • 誰が、
  • どこのポイントを、
  • 何位で通過したか、 また、
  • その際の所要時間は何分か??

を基本的に必要なデータとする。そのため、時空間データとして扱うには好例なのではなかろうか...が、思いの外、データ整形が難航している。
(特にステージレースの場合は、そのステージに関しては、そのステージの、総合に関してはそれまでのステージの合計で算出されるため、想像以上に、すごいことになっている) 特に、今年のブエルタは展開が荒れているし...どうなるかの、予測モデルを組む前に、今、どうなっているか??をまず把握したい。

手段

pythonによるデータ解析入門とRによる時系列分析入門とRクックブックを用いる

方法

2015/09/04現在時点で第12ステージまで終了しています。
  • これはサンプルになります。

f:id:GeoJackass:20150904013353p:plain

マーカーをクリックすると、個人総合の順位で並べ替え済みの状態で、下記のレコードを表示します。
  1. 選手の名前
  2. 出身国
  3. 所属チーム
  4. 先頭との時間差


  • geotagは公式がpngなので、必然的に眼grepです。
  • 集団ゴールの場合は、通常タイムが空欄で表示されますが、00:00:00となるように埋めてあります。
    • 各ステージ毎に、その集団の先頭のゴールした時刻とのタイム差を集団に対して適応します。
    • 各ステージ毎の総和が、個人総合の第Nステージの結果になります。
  • 前行の仕様は、学習機にかけて脚質や簡易型のホワイトレポートを作成するために強制した仕様なので、解除可能です。
  • 第7ステージは、リザルトがよく分かりません。
  • 第1ステージはTTTなので、個人総合の対象になりません。

結果

後程、blogに移行して、各種検索機能などを構築する予定です。たぶん...

結論

レースは後半が面白いですが、ライブラリ開発の後半戦はクソ