昨年、GoogleのDeepMindチームが作成したAlphaGoと呼ばれる人工知能プログラムが、チェスよりも複雑な古代中国の戦略ゲームであるGoで人間のチャンピオンを打ち負かしました。 Emily Matcharが当時Smithsonian.comについて報告したように、1997年にはGoでコンピューターが人間を倒すのに100年かかると予測していた人々がいたので、それは素晴らしい成果でした。
偉業は印象的ですが、AlphaGoは人間がプレイした以前のゲームを分析することでゲームをプレイすることを学びました。 しかし、NPRのMerrit Kennedyが報告しているように、AlphaGo Zeroと呼ばれる人工知能の新しいバージョンは、人間の入力や操作なしでゲームを独自にマスターする方法を見つけました。これは、将来のAI開発に大きな影響を与える進歩です。
DeepMindのプレスリリースによると、AlphaGoの以前のバージョンは、プロとアマチュアのプレイヤーの試合を研究し、ゲームのルールと成功したプレイ戦略を吸収して、ゲームをプレイすることを学びました。 ただし、AlphaGo Zeroは、人間がプレイするゲームを見ませんでした。 代わりに、ゲームのルールが与えられ、その後、強化学習を使用して自分自身に正しい動きと間違った動き、および長期的な戦略を教えることで、自分自身と対戦しました。 AIがゲームをプレイするにつれて、高度なニューラルネットワークを更新して、相手の動きをより正確に予測しました。
研究者たちは、AIがリアルタイムでゲームをマスターするのを見ました。 3日後、AlphaGo Leeと呼ばれる以前のバージョンを倒すことができました。これは、2016年に5ゲーム中4ゲームで韓国GoマスターLee Sedolを破りました。21日後、AlphaGo Masterを倒しました。今年初めに世界最高の選手であるJ傑。 最新バージョンでは、AlphaGo Master 100ゲームが0になりました。40日後、誰も見たことのないプレイレベルに達しました。 この研究は、 Nature誌に掲載されています。
GoogleのDeepMindのリードリサーチャーであるDavid Silver氏は、YouTubeのビデオで「短期間で、AlphaGo Zeroは何千年ものプレイで人間が蓄積したGoの知識をすべて理解してきました」と述べています。 「実際には、それを超えて、この時期に人間が発見することさえできなかった何かを発見し、多くの点で創造的で斬新な新しい知識を発見することがあります。」
Agence France-Presseが報告しているように、AlphaGo Zeroは以前のバージョンよりもはるかに効率的にこのレベルの習熟に達しました。 前のイテレーションには48のデータ処理ユニットがあり、数か月の間に3, 000万のトレーニングゲームをプレイしていましたが、ゼロには4つの処理ユニットがあり、3日間で490万のトレーニングゲームをプレイしました。 「人々は機械学習はすべてビッグデータと膨大な計算量であると想定する傾向がありますが、AlphaGo Zeroで実際に見たのは、アルゴリズムがより重要であるということです」とSilverはAFPに語ります。
しかし、調査は単にボードゲームをマスターするだけではありません。 The Guardianの Ian Sampleが報告しているように、このタイプのタブララサ、または白紙の学習は、新薬のような汎用人工知能を導き、薬剤組成などのコンピューターでよくシミュレートできる分野の問題を解決するのに役立ちます、タンパク質の折り畳みまたは粒子物理学。 人間のバイアスや制限なしにゼロから知識を構築することにより、アルゴリズムは人間がまだ見ていなかった方向に進むことができます。
AIコミュニティの多くの人々はAlphaGo Zeroを大きな成果と考えていますが、人工知能を専門とするニューヨーク大学の心理学教授であるGary Marcusは、NPRのケネディに、アルゴリズムは実際のタブララサではないと考えていると語りますアルゴリズムの構築に。 彼はまた、tabula rasa AIが見かけほど重要だとは考えていません。 「[生物学]、実際の人間の脳はタブラ・ラサではありません...あなたがそれをするべき主要な理論的理由、私たちが世界について持っている多くの知識を捨てるべき理由はわかりません」と彼は言います。
それでも、Alpha Goのゲームの迅速な習得は印象的で、少し恐ろしいです。