図面と写真を照合する検索エンジンはそれほど遠くありません| イノベーション| スミソニアン - 記事、イノベーション、テクノロジー

数週間前、私はショッピングモールにいて、ロープのようなストラップの付いた大きなハンドバッグを持っている女性に気付きました。私は新しいトートバッグの市場にいるので、彼女がどこで手に入れたかを尋ねることを考えました。しかし、私が私の動きをする前に、彼女は角を曲がって姿を消しました。家に着いたら、バッグをググリングしてみました。しかし、私はファッショニスタではなく、自分が見たものを説明するための語彙を持っていなかったことがわかりました。「ひも付きの革製ハンドバッグ」は正しくありませんでした。「ロープハンドル付き財布」も「コードストラップ付きバッグ」もありませんでした。結局、私はあきらめました。

現在、新しい技術の目的は、必ずしも言葉で説明できないものを人々が検索できるようにすることです。

ジョージア工科大学のコンピューター科学者であるジェームズ・ヘイズは、手書きの画像と写真を一致させることができるコンピュータープログラムを作成しました。これは最終的に、Google画像などのインターネット画像検索サービスを組み合わせて、ユーザーの図面に正確に一致する写真を見つけることができるプログラムにつながる可能性があります。

「目標は、人間の缶のように、写真とスケッチをどちらの方向にも関連付けるか一致させることです」とヘイズは言います。「人間はひどく描かれたスケッチを見て、どの写真と一致するように見えるかを把握できます。同じ機能を計算的に持ちたいと思っています。」

プログラムを作成するために、ヘイズはAmazon Mechanical Turkから700人近くの労働者を雇いました。彼のチームは、リス、ティーポット、バナナなどの普通の物体や動物の写真を労働者に見せ、2秒間画像を見ることができるようにしました。その後、ワーカーはメモリからオブジェクトを描画します。最終的に、チームは12, 500個のオブジェクトの75, 000個以上のスケッチを収集しました。彼らはこれを「スケッチデータベース」と呼びました。

次に、プログラムはスケッチを分析し、それらを最もよく似た写真と一致させました。この技術は、37％の確率で正しい写真を特定しました。これに対して、人間は約54％の割合で正しかった。 37％は印象的ではないように思えるかもしれませんが、実際にはコンピューターにとってはかなりの飛躍です。

「人間はすでに非常に驚くほど視覚に優れているので、画像を簡単に認識します」とヘイズは言います。「実際、計算上は驚くほど困難です。」

プログラムを改善する際の主な課題の1つは、ほとんどの人がかなりお粗末なアーティストであることです。ヘイズと彼のチームがこのテーマに関する論文で書いたように、「形状とスケールは歪んでいます。オブジェクトの部分は、似顔絵（象の大きな耳）、擬人化（クモの口を微笑む）、または単純化（棒状の手足）です。

歴史的に、コンピューターにスケッチを認識させるための研究は、図面内の線の分布、線が進む方向、または図面の境界の位置などに焦点を当ててきました。しかし、人間は人間の目立ったものだけを描くため（たとえば、目は比較的小さくても常にスケッチに含まれます）、コンピューターがスケッチの類似性と傾向を「学習」することが重要です。写真とは異なります。このため、プログラムは2つの個別のネットワークを使用します。1つはスケッチを評価し、もう1つは写真を評価します。大規模なデータセットを絶えず分析することにより、プログラムは継続的に「学習」できます。

Haysと彼のチームは、データを追加してプログラムの改善を続ける予定です。コンピューター学習の進歩も一致率の改善に役立つはずです。現在のところ、Flickrを含むインターネット写真データベースとスケッチを比較する場合、プログラムの一致率はかなり高くなっていますが、定量化することは困難です。

私が非常に必要とするハンドバッグの画像検索に加えて、このプログラムには、ささいな潜在的な用途がいくつかあります。警察は疑わしいスケッチをスキャンし、それらを犯罪写真のデータベースと比較することができました。このプログラムは、あらゆる言語で話したり書いたりできる人や、まったく書くことができない人が使用できます。

「スケッチを理解する目的の1つは、それらがやや普遍的な言語であることです」とヘイズは言います。「それは特定の書かれた言語に結び付けられておらず、リテラシーにさえ結び付けられていません。 [このようなプログラムは、書き言葉のない情報へのアクセスをもたらす可能性があります。]

このプログラムを芸術的に使用して、スケッチから写実的なシーンを作成することもできます。月の城に住むことを常に想像していましたか？それを描くと、プログラムはいつか他の画像をつなぎ合わせて写真画像を作成することができます。

ヘイズと彼のチームによって収集された情報は、神経科学と心理学に関するいくつかの質問への対処にも役立つ可能性があるとヘイズは言います。

「これらのスケッチと写真のペアは、人間の知覚、目立っていると思うもの、画像のどの部分が注目を集めているかについて何かを言っています」とヘイズは言います。「いくつかの点で、このデータベースはこれをかなりうまくエンコードしています。もしあなたが人間自身について何か言いたいなら、それからいじめられる何かがあるかもしれません。」