https://frosthead.com

人工知能がアーカイブミュージアムの研究に革命をもたらす方法

人工知能について考えるとき、植物学の分野はおそらくあなたの心の最上部ではありません。 最先端の計算研究の設定を想像すると、100年以上前の博物館がリストのトップにならない場合があります。 それでも、 生物多様性データジャーナルに掲載されたばかりの記事は、ワシントンDCの国立自然史博物館にある国立植物園以外で機械学習の最も刺激的で重要な革新が行われていることを示しています。

この論文は、デジタルニューラルネットワークが90パーセントをはるかに超える精度で2つの類似した植物のファミリを区別できることを実証し、今後の科学者や学者にとってあらゆる種類の食欲をそそる可能性を示唆しています。 この研究は、「ディープラーニング」アルゴリズムに基づいたソフトウェアに依存しています。これにより、コンピュータープログラムは、人間の専門家と同じように経験を積むことができ、実行するたびにゲームが向上します。 すぐに、この技術により、地球の隅々からの数百万の異なる標本の比較分析が可能になりました。これは、以前は手に負えない量の人的労働を要求していた命題です。

「この研究の方向性は非常に有望です」とスタンフォード大学教授のマーク・アルジー・ヒューイットは言います。マーク・アルジー・ヒューイットは、大学の空間およびテキスト分析センターのデジタル人文科学運動の助教授および助教授です。 「これらの方法には、コレクションに含まれる内容に関する膨大な情報を提供する機能があり、そうすることで、このデータにアクセスできるようになります。」

これらの新しい発見は、スミソニアン研究所で行われた長年の研究に基づいて構築され、学術および公共アクセスのためのコレクションをオンラインでデジタル化し、注目すべき学際的な会議を表しています:植物学者、デジタル化の専門家、データ科学者はすべて、これらをもたらす役割を果たしました光への結果。

物語は2015年10月に始まり、カメラとコンベアベルト装置を自然史博物館の下に設置すると、スミソニアンの植物コレクションをデジタル化する取り組みが大幅に簡素化されました。 押された花や草の塊をリポジトリに手動でスキャンする代わりに、労働者はサンプルの配列全体をキューに入れ、ベルトに魔法をかけ、最後にそれらを検索して再カタログ化することができます。 3人の乗組員がデビュー以来ベルトを監督しており、毎年約750, 000の標本を通過しています。 間もなく、スミソニアンの標本標本数500万個が完全にオンラインになります。

各標本には、その出所に関する情報と重要な統計データを提供する詳細な識別カードがタグ付けされています。 これらのカードの内容は、デジタル画像と一緒に転写およびアップロードされており、コレクション内の各アイテムの包括的なビューを提供して、検索に行く傾向がある人に提供しています。

スミソニアンのデジタル化された植物アーカイブでは、標本の高解像度の画像が、それらに添付された便利なIDタグの転写とペアになっています。 スミソニアンのデジタル化された植物アーカイブでは、標本の高解像度の画像が、それらに添付された便利なIDタグの転写とペアになっています。 (国立自然史博物館)

「コンピュータとインターネットに接続できる人なら誰でもコレクションにアクセスできるようになります」と博物館の植物学委員長であるローレンス・ドーアは言います。「これは特定の質問に答えるのに最適です。」 。 確かに、膨大な量の標本データがオンラインコミュニティで利用できるようになりましたが、全体として分析するのは空想的なままです。 特定の標本や標本の小さなカテゴリを検索するのは簡単ですが、データを活用して何千もの標本に関する結論を引き出す方法が存在するかどうかを疑問視していました。 「このデータで何ができますか?」彼は不思議に思い起こした。 アダム・メタロという男はすぐに説得力のある答えを提供しました。

スミソニアンのデジタル化プログラムオフィスの役員であるMetalloは、会議に出席しました。この会議では、どこにいてもPCゲーマーの大御所であるNVIDIAが次世代のグラフィックスプロセッシングユニット(GPU)を展示しました。 メタロはスミソニアンの3Dデジタルレンダリング機能を改善する方法を模索していましたが、それは彼の注意を引き付け、彼に固執した情報の大部分は無関係なナゲットでした。 NVIDIAのGPUは、ビッグデータ分析に適していると、動的で忠実度の高い3Dビジュアルを生成することに加えて、彼は話した。 特に、強化されたGPUは、集中的なデジタルパターン認識に必要なものでした。 多くの機械学習アルゴリズムがNVIDIAプラットフォーム用に最適化されていました。

メタロはすぐに興味をそそられました。 自動運転車の開発や医療放射線学などのニッチ分野にすでに展開されているこの「ディープラーニング」技術は、Metalloが指摘するように、「現在アクセスできる最大かつ最も古いデータセットを構成する博物館の世界に大きな可能性を秘めています」に。"

「デジタル化によってスミソニアンで作成している大きなデータセットにとって、それはどういう意味ですか?」 彼の質問はローレンス・ドーの質問を完全に反映しており、2つが接続されると、火花が飛び始めました。 「植物コレクションは、私たちが最近取り組んできた最大のコレクションの1つでした」とMetalloは思い出します。 コラボレーションが提案されました。

多くの形式の機械学習では、分析対象の画像内の重要な数学的マーカー(コンピューターの手を握るだけの骨の折れるプロセス)にフラグを立てる必要がありますが、現代のディープラーニングアルゴリズムは、どのマーカーを仕事で探すべきかを自分で教えることができます時間と大規模な問い合わせへの扉を開きます。 それでも、スミソニアン固有のディープラーニングプログラムを作成し、個々の植物研究の質問に合わせて調整するのは難しい作業でした。DorrとMetalloは、ビジョンを実現するためにデータサイエンティストの助けを必要としていました。

データサイエンティストは、ポールフランセンが次のように記憶している間に、ニューラルネットワークのトレーニング標本を編集します。 データサイエンティストは、ポールフランセンが「1月の寒い日」と記憶している間に、ニューラルネットワークのトレーニング標本をまとめます。 (国立自然史博物館)

彼らが乗せたスペシャリストの一人は、スミソニアンの研究データ科学者であるポール・フランセンでした。彼は、NVIDIA GPUを使用したニューラルネットワークを作成して植物学コレクションにもたらす可能性をすぐに認識しました。 Frandsenにとって、このプロジェクトは、すばらしい未踏の道を踏み出す重要な最初のステップを象徴しています。 すぐに、彼は言います。「私たちは地球規模で形態学的パターンを探し始めます。そして、伝統的に文献を見て数千または数百万時間かかっていたこれらの本当に大きな質問に答えることができます。物事を分類します。 アルゴリズムを使用して、これらのパターンを見つけ、世界についてさらに学ぶことができるようになります。」

公開されたばかりの調査結果は、印象的な概念実証です。 研究植物学者のエリック・シュエッペルツとデータ科学者のポール・フランセンとレベッカ・ディコウが率いる9人のチームによって作成されたこの研究は、機械学習と標本に関する2つの大規模な質問に答えることを目指しています。 1つ目は、訓練されたニューラルネットワークが水銀染色された標本を汚れのない標本から選別するのにどれほど効果的であるかです。 2番目の論文のハイライトは、そのようなネットワークが、表面的に類似した2つの植物ファミリーのメンバー、つまりシダの仲間であるLycopodiaceaeSelaginellaceaeを区別するのにどれほど効果的であるかです。

最初の試験では、チームが何千もの標本を事前に自分自身で検査する必要があり、どの標本が目に見えて水銀で汚染されているかを明確に指摘しました(時代遅れの植物保存技術の名残)。 彼らは100%の確実性で確実に知りたいと望みました。そうでなければ、プログラムの正確性を評価することは不可能でした。 チームは、コンピューターのトレーニングとテストに使用するクリーンサンプルのほぼ8, 000枚の画像と、さらに8, 000枚の染色サンプルをチェリーピッキングしました。 彼らがニューラルネットワークパラメータの調整を完了し、人間の支援をすべて取りやめるまでに、アルゴリズムはこれまでに見たことのない標本を90%の精度で分類していました。 最も曖昧な標本、たとえば、染色が最小限で、かつ/または非常にかすかな標本が捨てられた場合、その数字は94%に上昇しました。

この結果は、ディープラーニングソフトウェアがすぐに植物学者や他の科学者が面倒な選別タスクに時間を浪費することを回避できることを意味します。 「問題は、人間が標本が水銀で染色されているかどうかを判断できないことではなく」、Metallo氏は明確にしていますが、むしろ「汚染がどこにあるのかを手動で分類して把握することは困難」であり、時間管理の観点からそうしてください。 幸いなことに、機械学習は大きな時間の流れをせいぜい数日間の迅速な自動分析に変えることができました。

標本を一度に1つずつ調べると、多くのエネルギーが必要になり、大規模な結論を導き出すのが難しくなります。現在、ビッグデータ分析により、博物館はコレクションにアプローチする新しい方法を提供しています。 標本を一度に1つずつ調べると、多くのエネルギーが必要になり、大規模な結論を導き出すのが難しくなります。 現在、ビッグデータ分析により、博物館はコレクションにアプローチする新しい方法を提供しています。 (アーノルド樹木園)

この研究の種判別の部分はさらに刺激的です。 研究者は、約9, 300のクラブモスと9, 100のスパイクモスサンプルでニューラルネットワークをトレーニングおよびテストしました。 染色実験と同様に、これらのサンプルの約70パーセントが初期キャリブレーションに使用され、20パーセントが精密化に使用され、最後の10パーセントが正確さを正式に評価するために使用されました。 コードが最適化されると、2つのファミリを区別する際のコンピューターの成功率は96%でした。最も難しいサンプルを省略した場合、ほぼ完璧な99%でした。

ある日、Frandsenは、このようなプログラムが世界中の博物館で標本の予備分類を処理できると推測しています。 「これらのアルゴリズムがキュレーターに取って代わるものではないと思います」と彼はすぐに指摘します。より迅速に。」

この研究におけるニューラルネットワークの成功は、大規模なコレクションにわたる科学的仮説の迅速なテストへの道も開きます。 Dorrは、チームの調査結果で、デジタル化されたサンプルの広範な形態学的比較を実行できる可能性を確認しました。これは、重要な科学的ブレークスルーにつながる可能性があります。

これは、ディープラーニングが全面的な研究の特効薬になると言うことではありません。 スタンフォード大学のマーク・アルジー・ヒューイットは、条件付けされた後、「ニューラルネットワークがその決定を下す理由と方法を再構築することはほとんど不可能です」と指摘しています。 コンピュータプログラムに委ねる決定は、信頼される場合、常に本質的に複雑でなく、検証可能でなければなりません。

「明らかに」、自律コンピュータプログラムの「遺伝的関係をテストするつもりはない」など、少なくとも近い将来、いつでもDorrは言います。 「しかし、地理的地域または分類単位ごとの特性の分布について学び始めることができます。 そしてそれは本当に強力になるでしょう。」

何よりも、この研究は出発点です。 ディープラーニングテクノロジーが、世界中の科学者や他の学者、および知識を生み出す好奇心の強い大衆に大きな約束を持っていることは今や明らかです。 残っているのは、厳密なフォローアップ作業です。

「これは小さなステップです」とFrandsen氏は語っています。 制限をもう少しテストするために、今後数か月でさらにいくつかのプロジェクトをセットアップすることに興奮しています。」

人工知能がアーカイブミュージアムの研究に革命をもたらす方法