今年のオリンピックで各国が獲得するメダルの数を予測するように誰かに頼まれた場合、おそらく各イベントでお気に入りの選手を特定し、結果を得るために各国の予想勝利を合計しようとするでしょう。
データマイニング会社Discovery Corps、Inc.の兄弟であるTimとDan Graettingerのアプローチはかなり異なります。 彼らはアスリートを完全に無視します。
代わりに、ソチゲームのモデルは、各国の地理的領域、一人当たりGDP、輸出の合計値、および緯度を調べて、各国が獲得するメダルの数を決定します。 あなたが疑問に思っている場合、それは米国が合計で29のメダルでトップに出ると予測します。
Graettingersは、このようなデータ駆動型のトップダウンアプローチを採用してメダル数を予測する最初の企業ではありません。 コロラドカレッジの経済学教授であるダニエルジョンソンは、2000年から2008年の5回のオリンピックで同様のモデルを構築し、各国のメダル数を全体的に94%の精度で予測しましたが、ソチのモデルは作成しませんでした。
ダンとティムは、ゲームの新しいです。 Danは、通常、企業の潜在顧客の予測など、より一般的なデータマイニングプロジェクトに取り組んでいますが、4年前のバンクーバー冬季オリンピックで、モデルを使用して競合を予測することに最初に興味を持ちました。 「過去のデータを使用して、常に未来を予測しています」と彼は言います。 「毎晩、彼らはテレビでメダル数を表示していました。それを予測できるかどうか疑問に思い始めました。」
個々のアスリートのパフォーマンスは予想外に変化する可能性がありますが、彼は、国の基本的な特性(サイズ、気候、富の量など)と持ち帰る可能性のあるメダルの数の間には全体的な関係があるかもしれないと推論しました。 この種のアプローチでは、どの競技者が特定のイベントに勝つ可能性があるかはわかりませんが、十分なデータがあれば、各国のメダル総数を正確に予測できる可能性があります。
当初、彼と彼の兄弟は、2012年のロンドンゲームの予備モデルの開発に取り組み始めました。 まず、国の地理からその歴史、宗教、富、政治構造に至るまで、さまざまな種類のデータセットを収集しました。 次に、回帰分析およびその他のデータクランチング手法を使用して、どの変数がオリンピックメダルの履歴データと最も近い関係にあるかを確認しました。
彼らは、夏のゲームについて、国の国内総生産、人口、緯度、および全体的な経済的自由度(Heritage Foundationのインデックスで測定)を組み込んだモデルが、過去2回の夏季オリンピック(2004年)の各国のメダル数と最もよく相関することを発見しましたおよび2008)。 しかし、その時点で、彼らの予備モデルは、どの国が2つ以上のメダルを獲得するかを予測することしかできず、国ごとのメダルの数を予測することはできませんでした。
彼らはソチゲームのためにそれを改善することを決めましたが、冬で成功している国は夏とは大きく異なるため、以前のモデルに頼ることはできませんでした。 彼らの新しいソチモデルは、2つのステップでメダル数を予測する問題に取り組んでいます。 約90%の国が冬季オリンピックのメダルを1度も獲得したことがないため(中東、南米、アフリカ、カリブ海の選手はこれまでに優勝したことはありません)、最初に少なくとも1つを獲得する可能性のある10%を分離し、次に何人かを予測しますそれぞれが勝ちます。
「いくつかの傾向はあなたが期待するものとほぼ同じです。国の人口が増加するにつれて、メダルを獲得する可能性が高くなります」とティムは言います。 「しかし、最終的には、多くの変数をすりつぶし、最も予測可能性の高い変数でランク付けできる、より強力な統計機構が必要になります。」
最終的に、彼らはメダルを獲得していない国の90%と勝ちそうな10%を正確に区別するいくつかの変数に出くわしました:これらには移民率、一人当たりの医師数、緯度、国内総生産、国が持っているかどうかが含まれます前の夏のゲームでメダルを獲得しました(夏の勝者のプールが冬のプールよりもはるかに大きいため、前の夏に勝つことなく冬のメダルを獲得した国はありませんでした)。 過去2回の冬季オリンピックでこのモデルを実行することにより、このモデルは96.5%の精度でメダルを獲得した国を決定しました。
国の90パーセントが排除されたため、Graettingersは同様の回帰分析を使用して、残りの各国が獲得したメダルの数を遡及的に予測するモデルを作成しました。 彼らの分析は、わずかに異なる変数のリストが過去のメダルデータに最も適合することを発見しました。 これらの変数とソチゲームの予測は以下のとおりです。
ソチゲームのモデルの予測(グラフ提供:Discovery Corps、Inc.)相関関係があることが判明した変数の一部は大きなショックではありません。冬季の試合中に行われるイベントで高緯度の国が好調であることは理にかなっていますが、もっと驚くべきものもありました。
「土地ではなく人口が重要だと考えました」とダンは言います。 地理的領域が過去のデータにより密接に適合する理由は定かではありませんが、冬のメダルを獲得していない少数の人口の多い国(インドやブラジルなど)がデータを捨てている可能性があります。 代わりに土地面積を使用することにより、モデルはこれらの国々の特大の影響を回避しますが、全体として大面積の国ほど人口が多いため、人口との大まかな関連性を保持します。
もちろん、履歴データを照合する場合でも、モデルは完全ではありません。 「当社のアプローチは30, 000フィートのアプローチです。説明できない変数があります」とティムは言います。 一部の国はモデルの予測を繰り返し上回っています(不均衡な量のショートトラックスピードスケートイベントで優勝している韓国を含む)が、他の国では一貫してパフォーマンスを下回っています(英国など、予想される夏のイベントではるかに優れているようです)おそらく、その緯度にもかかわらず、雪よりもはるかに雨が多いためです。
さらに、彼らがモデルの予測で見つけた一貫した例外は、ホスト国が単にデータに基づいて、そうでない場合よりも多くのメダルを袋に入れることです。 イタリア(2006年のトリノゲーム中)とカナダ(2010年のバンクーバーゲーム中)は両方ともこのモデルを上回り、カナダは14の金を獲得した史上最高の記録を樹立しました。
それでも、統計的に厳密なアプローチに基づいて、Graettingersは、全体として、モデルが比較的高い精度で最終的なメダル数を予測すると確信しています。
彼らの予測は、従来の戦略を使用する専門家の予測と比較してどうですか? 専門家は劇的な違いはありませんが、 しかし、伝統的に成功したいくつかの国(ノルウェー、カナダ、ロシア)がより多くのメダルを獲得し、他のいくつか(中国、オランダ、オーストラリア)がそれぞれ少数のメダルを獲得しています。
これまでのところ、Graettingersは予測に賭けをしていませんが、ゲームが始まる直前にモデルの出力をベッティングオッズと比較することを計画しています。 悪用したい不一致を見つけた場合、彼らはお金を口に入れてしまうかもしれません。