https://frosthead.com

IBMのWatsonが生命の百科事典に出会うと、ビッグデータがさらに大きくなりました

2, 000年後、生命の究極の百科事典は、データ駆動型の新しい時代の頂点にあります。 National Science Foundationからの助成金は、The Encyclopedia of Life(EOL)、IBM、ジョージア工科大学に授与されました。 この助成金により、画期的な科学を可能にする方法で大量のデータを処理し、相互にインデックスを付けることができます。

関連性のあるコンテンツ

  • 提案された新しい海洋保護区システムは、ロブスターとロブスター漁師の両方にバラ色の見通しを提供します

西暦77年に、長老プリニは世界初の百科事典、 自然史を書き始めました 天文学から植物学、動物学、人類学まで、あらゆるものが含まれていました。 プリニーは、自然界について個人的に収集できるすべてを単一の書面にまとめようとしました。 過去2, 000年間、プリニウスに触発された科学者の長い連続が同じビジョンを追求してきました。

Plinyには36巻に20, 000のトピックが含まれていましたが、一人の人間が人間の寿命内で発見、記録、処理できるものの限界に突き当たりました。 彼はマグナムの作品の最終編集を終える前に、ベスビオ火山の噴火中に亡くなりました。 彼自身の時代でさえ、一人の人がすべての本を読み、すべてのことを学び、それをすべて世界に説明することは不可能でした。

後年、科学者、編集者、図書館員が、毎年、書かれた知識を追加する世界で発見したように、たとえ世界中のすべての本や研究を1つの建物に保管できたとしても、関連するすべての情報を利用できるようにすることは困難です彼らの短い人間の生活の制限の間に研究者。

EOLは、最先端の計算能力をさまざまな生物学的データの収集に適用することにより、それを変更できる可能性があります。 このプロジェクトは、世界最大級の生物多様性の事実、記事、マルチメディアの無料でオープンなデジタルコレクションです。 スミソニアン研究所に本社を置き、357のパートナーとハーバード大学やエジプトのアレクサンドリア図書館などのコンテンツプロバイダーと共に、EOLは2008年に発売された30, 000ページから200万を超え、130万ページのテキスト、地図まで成長しました。 、ビデオ、オーディオ、写真、および20の言語をサポートしています。

「2010年にソフトウェア業界からスミソニアンに来ました」とEOLディレクターのボブ・コリガンは言います。 「ここに来て発見したことの1つは、ITはどこにでもありますが、商業の世界に浸透したのと同じように博物館の世界に浸透していないことです。 特に生物学では、最も重要なデータが教科書やスプレッドシートに埋もれています。」

地球上の生命に関する新しい洞察のために、さまざまな形式の生物学的データをどのように組み合わせてマイニングできますか? たとえば、10年にわたるアフリカの蝶の生物多様性に関するデータが、農業慣行および降雨に関するデータと組み合わされた場合はどうなりますか? 何か新しいことを学ぶことができますか? これを行うには、人間の脳よりも大きなものが必要です。 IBMのWatsonスーパーコンピューターのようなもの。

「IBMは、公開されていない[ワトソンの]バージョンへの取り組みとアクセスに貢献しています」とEOLのプログラムディレクター、ジェニファーハンモックは言います。 「彼らはそれに取り組む人々もいるでしょう。 IBMは現物での貢献としてこれを行っています。」

Watsonは、大量の数字を処理するだけではないスーパーコンピューターです。 人工知能を使用して、ユーザーが平易な言葉で質問できるようにします。

「ユーザーの観点から言うと、データベースは、人間のように歩いて質問できるものです」とハンモックは言います。 「同様に、この紫色の蝶がアフリカで発生するかどうか教えていただけますか?」

「どんな言語でも簡単な質問に答えることは、舞台裏の多くの知識の存在を前提としています」とコリガンは言います。 「[単語]パープルでも、パープルとは何かを知っていることを前提としています。 または、蝶、コンピューターは蝶とbutterflyの違いを理解しなければなりません。 さらに、データセット自体には、これらのさまざまな用語についてさまざまな考え方があります。 これらのデータはすべて、Rosettaの専門用語がなければ採掘することが困難でした。 そして、それはEOLが行っていることの魔法の一部です。」

EOL、IBM、ジョージア工科大学間のパートナーシップが解決したい科学的疑問の1つは、プランクトンのパラドックスです。

ハンモックによると、コンピューターシミュレーションを使用する科学者は、「太陽が輝いて藻が成長すると言って海で何が起こるかをモデル化しようとしています。 。 。 大まかな概算がありますが、[エコシステムのコンピューターモデル]を安定させることはできません。 彼らはしばらく行ってからクラッシュします。 単純すぎるからです。 彼らは、モデル化された生物圏にもう少し多様性を示すことができれば、より安定することを望んでいます。 。 。 パラドックス:海洋生物圏はどのように存在するのか? なぜクラッシュしないのですか?」

「人々はデータの上に座っています」とコリガンは言います。 「地球全体に生物多様性測定の信じられないほどの貯水池があります。 私は、このデータに座っている人々から多くの電話を受けており、より広い文脈でそれを置くのを助けたいと思っています。 私たちはこの惑星を研究し、私たちの開発が私たちの非常に限られた資源にどのようにストレスを与えているかを学ぶ競争をしているので重要です。 。 。 スミソニアンは、これらすべてのソースからの知識の増加において役割を果たすことができ、それを拡散する真の力になることができます。」

100万ドルの助成金の4分の1がスミソニアンにその仕事のシェアに対して授与されますが、EOLには他の多くのプレーヤーが含まれています。 一部の開発者はエジプトにいます。 教育チームはハーバードに拠点を置いています。 スペイン語ユニットはメキシコシティにあります。

EOLのすべてのデータは引き続きパブリックドメインにあるか、クリエイティブコモンズの下でライセンスされています。 研究とデータは公にアクセス可能であり、ペイウォールの後ろに隠れることを意図していません。

「それは非常に古い夢です」とハンモックは言います。 「一人の人間はおそらくそれをすべて学ぶことはできません。 意識的に自分自身に対してチェックできる1つの場所にすべてを配置することは困難です。 しかし、今ではコンピューターがあります。」

プリニーは非常に喜んでいるか非常にveryしています。

IBMのWatsonが生命の百科事典に出会うと、ビッグデータがさらに大きくなりました