https://frosthead.com

ソフトウェアがすべてを語る1つの図を作成する

ユーザーは毎日3億5, 000万枚以上の写真をFacebookにアップロードしています。 この画像の流入により、アナリストは世界の3.5兆枚の写真の10%が昨年に撮影されたと推定しました。 Webにあふれるすべてのデータは、特定の画像やオブジェクト(オレンジ色のトラ猫がどのように見えるかなど)を探している場合、検索結果が確実にあふれることを意味します。

先月、カリフォルニア大学バークレー校の研究者は、ユーザーが探しているものを表す「平均的な」画像を見ることができる新しいソフトウェアAverageExplorerを発表しました。 千の言葉に値する絵というよりは、千枚以上の絵に値する絵です。

「Google画像検索を入力すると、ページや画像のページをふるいにかけます」と、UCバークレー校の大学院生であり、今年のコンピューターグラフィックスに関する国際会議および展示会で発表された論文の筆頭著者であるJun-Yan Zhu氏は説明しますバンクーバーでのインタラクティブなテクニック。 「それは巨大で、要約するのが難しいです。 何が起きているのか理解できません。」

Zhuと彼のチームは、最初の提供のために、Flickr、Google、Bingの画像検索を通じて写真を収集しました。 このソフトウェアは、平均的なデスクトップで実行するのに十分な低電力であり、約10, 000の画像を同時に処理できます。

ユーザーは、いくつかの異なる方法で検索を絞り込みます。 Adobe PhotoshopやIllustratorでの描画​​と同様に、図形のスケッチと色付けを行って、平均的な画像の結果を鮮明にすることができます。 たとえば、エッフェル塔の平均画像の背景に色を付けると、平均画像が自己選択され、夜間に撮影されたショットのみがプルされます。 または、角度の付いた線を描画して、コンポジット内の蝶の向きを制御できます。

ため息の橋、昼から夜まで ため息の橋のAverageExplorer画像の色を調整することで、昼から夕暮れ、夜にシーンを変更できます。 (提供:UCバークレー)

平均的な画像が作成されると、1分ほどかかるプロセスがあり、ユーザーはチームがエクスプローラーモードと呼んでいるものを使用して結果をさらに絞り込むことができます。 このモードでは、画像の特定の部分(たとえば、猫の鼻)をクリックすると、そのスポットの他の一般的なオプションまたは改良点(青または黒の鼻、または角ではなく丸い鼻)が表示されます。 たとえば、デモビデオでは、チームはサンタが各腕に子供を1人ずつ持つ画像のみを選択することで、サンタの膝の上の子供の画像を改良しました。

Zhu氏によると、システムが特に強力になるのは、カメラが指しているものを特定できるGoogle GogglesやAmazon Fireflyアプリで採用されているような、コンピュータービジョンアルゴリズムをトレーニングするためのツールです。 「コンピュータービジョンの分野では、人々はオブジェクトに注釈を付けるために多くのお金を費やしています」と彼は説明します。 「これで、平均画像に注釈を適用できます。 データセット内のすべての画像を伝播するために、1つの画像で作業するだけでよいという考えです。」

猫の品種を見つける 検索結果のモードを改良することにより、研究者は、ラグドール、シャム、メインクーン、スフィンクスを含む(左から右へ)特定の種類の猫を見つけることができます。 (提供:UCバークレー)

アートワークを作成することは、AverageExplorerにとって簡単なことです。 チームは、手作業で平均的な写真を丹念に作成したJason Salavonのようなニューメディアアーティストからインスピレーションを得ました。 また、ユーザーが自分の平均的な画像をいじることができるFacebookプラグインの作成にも使用できます。

研究者の抱負はさらに広く、影響力があります。 社会学者はこのシステムを使用して、社会的傾向を見つけて調査できます。 たとえば、平均化された画像は、花嫁が結婚式のポートレートで花groomの右側に立つことが最も多いことを証明できます。 AverageExplorerは、テレビの報道を分析しようとするメディアアナリストにとっても有用なツールかもしれません。スティーブンコルバートの姿勢は、ジョージW.ブッシュ対バラクオバマについて話しているときに変化しますか?

ユーザーがキーワードの正しい文字列を入力するのに苦労するのではなく、視覚データと直感的に対話できるようにすることで、ユーザーはZhuのアドバイザーでありAverageExplorerの共同作成者であるAlexei Efrosが「言語のボトルネック」と呼ぶものを橋渡しできます。

チームは、具体的で表現しにくいタスク用に設計されたカスタムツールスイートを想像しています。 たとえば、ショッピングアプリケーションを使用すると、ユーザーは正確な色、かかとの形状、高さを求めて、かかとを1組合わせてウェブをスパイダーできます。 朱は、警察のスケッチアーティストのワークフローと統合するツールを想定しており、目撃者は、加害者の顔に一致する特徴を顔データベースで検索し、合成肖像画を作成できます。

AverageExplorerの基本バージョンがこの秋にリリースされます。

ソフトウェアがすべてを語る1つの図を作成する