コンピューターは5,000年前の言語を解読できますか？

紀元前3千年の大部分で栄えたインダス文明は、当時最も広大な社会でした。その高さでは、今日のインドとパキスタンの国境を中心に、50万平方マイル以上のエリアが含まれていました。インダスの残骸は、北はヒマラヤ、南はムンバイまで発見されています。それは亜大陸の最も早い知られている都市文化であり、それは2つの大きな都市を誇っていました。1つはハラッパに、もう1つはモヘンジョダロにあります。それでも、その大きさと長さ、そしてほぼ一世紀近くの考古学的調査にもかかわらず、インダスについての多くは謎に包まれたままです。

私たちが知っていることは、1920年代に始まって今日も続いている考古学的な発掘から得られたものはほとんどありません。数十年にわたって、考古学者は、印章の封印、お守り、小さな錠剤など、非常に多くの遺物を発見しました。これらのアーティファクトの多くは、書き物の標本のように見えるものを持っています。とりわけ、翼のある蹄鉄、スポーク付きの車輪、直立した魚に似た彫刻が施された人物です。しかし、これらのシンボルが正確に何を意味するのかは、古代文明の奨学金の中で最も有名な未解決の謎の1つのままです。

歴史にクラックする他の厳しいコードがありました。困惑したエジプト学者は、1799年に有名なロゼッタ石の発見で幸運な休憩を見つけました。そこにはエジプトとギリシャの両方のテキストが含まれていました。マヤの象形文字の研究は、1950年代にロシア語の言語学者Yury Knorozovが現代の話されたマヤ語を巧みに利用するまで衰退しました。しかし、インダスのロゼッタの石はありません。学者は、インダスの人々が話した言語から派生した言語があれば、それを知っています。

約22年前、インドのハイデラバードで、8年生のラジェシュラオという学生が歴史教科書のページをめくり、この魅力的な文明とその神秘的な台本について初めて学びました。その後の数年間、ラオの学校教育と職業は、彼を別の方向に連れて行きました。コンピューター科学を追求し、今日シアトル大学で教えていますが、彼は数十人の失敗を監視しながら、インダスの奨学金を注意深く監視しました。スクリプトの意味を理解しようとします。ラオは、人工知能とロボット工学を学んでいたにも関わらず、約30のインダススクリプトに関する書籍やモノグラフの小さなライブラリを蓄積しました。彼は近くの本棚で、彼をインダスに紹介した大事な8年生の歴史教科書も保管していました。

「人々が提案したさまざまなアイデアを目にするのは、ただ驚くべきことでした」と彼は言います。一部の学者は、執筆は一種のシュメール文字であると主張した。他の人は、ドラヴィダ家に位置していました。さらに他の人は、それがイースター島の言語に関連していると考えました。ラオは、これが「おそらく古代史に関して最も困難な問題の1つ」であることを理解するようになりました。

試行後の試行がスクリプトの解読に失敗したため、一部の専門家は、スクリプトをデコードできるという希望を失い始めました。 2004年、3人の学者が論争の的となった論文で、インダスのシンボルには言語学的な内容がまったくなかったと主張しました。代わりに、シンボルは、政治的または宗教的な人物を表すピクトグラムにすぎない場合があります。著者たちは、インダスが文学的文明ではなかったことを示唆するまで行った。この分野の一部の人々にとって、それらのインダスのエッチングの背後にある言語を探そうとする全体の探求は、無益な運動に似始めました。

数年後、ラオは争いに入りました。それまでは、スクリプトを研究する人々は考古学者、歴史家、言語学者、または暗号学者でした。しかし、Raoは、彼が最もよく知っているツールであるコンピューターサイエンスを使用して、Indusスクリプトの秘密を引き出すことにしました。

8年生からインダス文明に魅了されたラジェシュラオは、コンピュータサイエンスと「条件付きエントロピー」と呼ばれる概念を使用して、インダススクリプトの解読を支援しています。（David Zax提供）

数十年にわたって、考古学者は、印章の封印、お守り、小さな錠剤など、インダス文明からの非常に多くの遺物を発見しました。（ロバートハーディング/ロバートハーディングワールドイメージ/コービス）

Raoと彼の共同研究者は、5月にScience誌に調査結果を発表しました。彼らは言語を解読しませんでしたが、彼らの発見はそれの理解を鋭くしました。（ロバートハーディング/ロバートハーディングワールドイメージ/コービス）

ラオと彼の同僚は現在、科学論文で分析したよりも長い文字列を探しています。パターンを見つけることは、スクリプトがどの言語ファミリーに属するかを決定するのに役立ちます。（David Zax提供）

シアトルでの夏の日、ラオは私を彼のオフィスに迎え入れ、彼と彼の同僚がどのように問題に取り組んでいるかを見せてくれました。彼は、考古学者がインダスのサイトから発見した粘土印影のレプリカのコレクションを作成しました。それらは小さな正方形のチョコレートのように小さく、それらのほとんどは一連のインダスのシンボルの下に動物の画像があります。 Indusスクリプトのほとんどのサンプルは、これらのようなミニチュアであり、数文字しかありません。壮大なモノリスは発見されていません。学者は小さなアザラシの機能について不確かであるとラオは私に語ったが、1つの理論は、彼らが取引された商品の品質を証明するために使われたかもしれないということです。もう一つは、アザラシは、トレーダーが都市に出入りする際に税金を支払うことを保証する方法であったかもしれないことを示唆しています。多くのアザラシは、古代の料金所のように機能していたかもしれません。

ラオと彼の同僚は、古代のスクリプトを解読するのに十分な情報がないことを知っていた奇跡を働かせようとはしませんでしたが、計算方法を使用することで、少なくともどのようなインダスを書くことができると仮定しましたスクリプトは：言語をエンコードしたか、しなかったのか？彼らは、「条件付きエントロピー」と呼ばれる概念を使用してこれを行いました。

印象的な名前にもかかわらず、条件付きエントロピーはかなり単純な概念です。これは、シーケンス内のランダム性の量の尺度です。アルファベットを考えてください。スクラブルタイルを空中に投げると、古い文字が次々と現れることがあります。しかし、実際の英語の単語では、特定の文字が他の文字の後に出現する可能性が高くなります。英語のqの後には、ほとんどの場合uが続きます。 tの後にrまたはeが続く場合がありますが、 nまたはa bが続く可能性は低くなります。

Raoと彼の協力者（コンピューター科学者、天体物理学者、数学者を含む国際的なグループ）は、コンピュータープログラムを使用して、Indusスクリプトの条件付きエントロピーを測定しました。その後、他のタイプのシステムの条件付きエントロピーを測定しました。自然言語（スメリア語、タミル語、サンスクリット語、英語）、人工言語（コンピュータープログラミング言語Fortran）、非言語システム（ヒトDNA配列、細菌タンパク質配列、条件付きエントロピーの上限と下限を表す2つの人工データセット）。 Indusスクリプトのランダム性の量を他のシステムのランダム性の量と比較したところ、自然言語で見られる割合に最も近いことがわかりました。彼らは5月にサイエンス誌に調査結果を発表した。

それが言語のように見え、それが言語のように振る舞うなら、おそらくそれは言語だと彼らの論文は示唆している。もちろん、調査結果はスクリプトを解読しませんが、それについての理解を深め、Indusスクリプトが言語をエンコードするという仮定の下で働いていた考古学者に安心を与えました。

論文を発表した後、ラオは驚きました。スクリプトがどの言語ファミリーに属しているかという問題は、デリケートなものであることがわかります。インダス文明の年齢と重要性のために、インドの多くの現代グループは、それを直接の先祖として主張したいと思います。たとえば、南部のタミル語を話すインディアンは、タミル語がプロトドラビア人の子孫であるため、インダス文字がプロドラビア人の一種であることを学ぶことを好むでしょう。北部のヒンディー語話者は、むしろヒンディー語の祖先であるサンスクリット語の古い形式です。 Raoの論文は、スクリプトがどの言語ファミリーに属しているかを結論付けるものではありませんが、条件付きエントロピーは旧タミル語に似ていることを指摘しています。「告発と攻撃の凶暴性は完全に予想外でした。」

ラオは時々、神経科学とロボット工学のあまり激しく争われていない世界に戻ることに安心します。しかし、Indusスクリプトの呼び出しは魅力的であり、「以前は趣味だったことが今では私の時間の3分の1以上を独占している」と彼は言います。ラオと彼の同僚は現在、科学論文で分析したよりも長い文字列を探しています。「パターンがあれば、文法規則を考え出すことができます」とラオは言います。これにより、スクリプトがどのような言語ファミリに属するかという制約が生じます。

彼は、彼の将来の調査結果が、インドのある地域と他の地域に根ざしている敵対者のあいまいさをより少なくすることを示唆することを望んでいます。彼の側では、ラオがインダス文字が彼に意味することについて話すとき、彼はインド全体に関して話す傾向があります。「インダス文明を理解できれば、インドの遺産はかなり豊かになるでしょう」と彼は言います。 Raoと彼の協力者は、一度に1行のソースコードで作業しています。