https://frosthead.com

人工知能が声に基づいて人間の顔を生成

マサチューセッツ工科大学の研究者によって開発された新しいニューラルネットワークは、プレプリントサーバーarXivレポートで公開された論文であるスニペットのみに基づいて、個人の顔の大まかな近似を構築することができます。

チームは、人工知能ツール(人間の脳のように「考える」ようにプログラムされた機械学習アルゴリズム)をトレーニングし、100, 000人以上の異なるスピーカーをキャプチャする数百万のオンラインクリップの助けを借りました。 Speech2Faceと呼ばれるニューラルネットワークは、このデータセットを使用して、音声キューと特定の顔の特徴間のリンクを決定しました。 科学者がこの研究で書いているように、年齢、性別、口の形、唇の大きさ、骨の構造、言語、アクセント、速度、発音はすべて音声のメカニズムに影響します。

GizmodoのMelanie Ehrenkranz氏によると、Speech2Faceは、外観と音声の関連性を利用して、中立的な表現で正面向きの個人の写実的なレンダリングを生成します。 これらの画像は一般的すぎて特定の人物として特定できませんが、その大半は話者の性別、人種、年齢を正確に特定します。

興味深いことに、ジャッキー・スノーはFast Companyについて、新しい研究は音声からの年齢と性別の予測に関する以前の研究に基づいているだけでなく、声と鼻の構造などの「頭蓋顔面の特徴」の間のリンクにも注目しています。

著者は、「これは、事前情報なしで、またはこれらのタイプの微細な幾何学的特徴の正確な分類子の存在なしで達成されます。」と付け加えます。

それでも、アルゴリズムには欠点があります。 Live ScienceのMindy Weisbergerが指摘しているように、このモデルでは言語のバリエーションの分析に問題があります。 たとえば、中国語を話すアジア人のオーディオクリップを再生した場合、Speech2Faceは正しい民族性の顔を生成しましたが、同じ個人が英語を話すと記録されたとき、AIは白人の画像を生成しました。

他のケースでは、子供を含む高音の男性が誤って女性と識別され、低音の声を男性と、高音の声を女性と関連付ける際のモデルの性別バイアスを明らかにしました。 トレーニングデータの大部分はYouTubeに投稿された教育ビデオから得られたという事実を考えると、研究者はさらに、アルゴリズムが「全世界の人口を均等に表現できない」ことを指摘しています。

SlateのJane C. Huによると、科学的な研究にYouTube動画を使用することの合法性はかなり明確です。 このようなクリップは、公開されている情報と見なされます。 ユーザーが動画の著作権を所有している場合でも、科学者は「公正使用」条項の下で実験に素材を含めることができます。

しかし、この実践の倫理はそれほど単純ではありません。 クラウドフレアの暗号学責任者であるニック・サリバンは胡と話して、MITチームの研究に彼自身の写真が掲載されたことに驚いたと述べた。 SullivanはHuに、データベースに自分が含まれていることを通知するのは「いい」と言ったが、データプールのサイズが大きいことを考えると、科学者が描かれた全員に連絡することは難しいことを認める。

同時に、サリバンは次のように結論付けています。「私の画像と音声は、Speech2Faceペーパーの例として、統計的研究のデータポイントとして使用されただけでなく、私の許可を求めてください。」

Speech2Faceの現実的なアプリケーションの1つは、モデルを使用して、スピーカーの声に基づいて電話に「代表的な顔を付ける」ことです。 Snowは、多くの分野で音声認識技術がすでに使用されていることを付け加えました。多くの場合、個人の明確な知識や同意なしに。 チェイスは昨年、銀行に電話をかけているクレジットカードの顧客を認識することを学習する「ボイスID」プログラムを立ち上げ、全国の矯正機関は投獄された個人の「声紋」のデータベースを構築しています。

人工知能が声に基づいて人間の顔を生成