2014年7月3日木曜日

Google Cloud Platform を使って未来予測! #io14

先日、スポーツのデータを提供している Opta についてブログを書きました。こういうデータは非常に面白くて、単にビジュアライゼーションをするだけでも面白いのですが、うちの同僚の Felipe と Jordan は更に、そのデータを使って統計モデルを作り、機械学習させ、ワールドカップのサッカーの勝敗予測をセッションで行いました。

選手たちのワールドカップ以外のプロリーグでのパフォーマンスや Jordan が作ったランキングシステム、ブラジルに渡航したファンの数など、様々な要素がモデルに組み込まれています。Google Cloud Dataflow を使ってデータを読み込み、BigQuery を使って分析し、iPythonPandas を使ってモデルを構築し、Google Compute Engine を使ってデータ処理を行っています。



Predicting the future with the Google Cloud Platform

セッション概要:
Can you predict the future using Big Data? Can you divine if your users will come back to your site or where the next social conflict will arise? And most importantly, can Brazil be defeated at soccer on their own turf? In this talk, we'll go through the process of data extraction, modeling and prediction as well as generating a live dashboard to visualize the results. We’ll demonstrate how you can use Google Cloud and Open Source technologies to make predictions about the biggest soccer matches in the world. You’ll see how to use Google BigQuery for data analytics and Monte Carlo simulations, as well as how to create machine learning models in R and pandas. We predict that after this talk you’ll have the necessary tools to cast your own eye on the future.



で、予測結果はどうだったのかというと、ベスト 8 の予測のすべてが当たりました :)
詳細は下記ブログ記事をご参照。

Google Cloud Platform goes 8 for 8 in World Cup predictions

update 7/7

当然、次は準々決勝を予測しています。

ブラジル対コロンビア - ブラジルの勝率は 71% > 正解
フランス対ドイツ - フランスの勝率は 69% > 不正解
オランダ対コスタリカ - オランダの勝率は68% > 正解
アルゼンチン対ベルギー - アルゼンチンの勝率は81% > 正解

update 7/11

なお、当たった・当たらなかっただけでは意味がなく、
なぜ上記フランス対ドイツが当たらなかったのかの分析を行うのがとても重要です。

というわけでその分析と準決勝の予測はこちら:

Google Cloud Platform is 11 for 12 in World Cup predictions

ブラジル対ドイツ - ドイツの勝率は 59% > 正解
オランダ対アルゼンチン - アルゼンチンの勝率は 61% > 正解

両方正解!というわけで最後の決勝の予想はこちら

Google Cloud Platform predicts the World Cup (and so can you!)

ドイツ対アルゼンチン - ドイツの勝率は 55%

さてどうなるでしょう!

Update 7/13

ドイツが勝ちました!決勝も当たりです!

その他ご参考:
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja
BigQueryにTwitterのタイムラインを入れる [Ruby]

Update 11/25

バルセロナで開催された Strata + Hadoop World Europe 2014 で、"Predictive Analytics in the Cloud: Predicting Football" というタイトルでこのワールドカップの予測について講演が行われたのでご参考に。



Disclaimer このブログは山崎富美の個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には一切の関係はありません。