https://frosthead.com

キス言語の障壁さようなら

長い間、普遍的な翻訳者はポップカルチャーの強迫観念でした。 スタートレックは、マイクに似たハンドヘルドマシンとして提示し、ほとんどの言語をすぐに翻訳できます。 Hitchhiker's Guide to the Galaxyには、耳に刺さると銀河系のあらゆる言語の即時翻訳を提供するクリーチャーであるバベル魚が自慢です。

したがって、現代の人間が同様に機能するデバイスを作成しようとしていることは驚くことではありません。 翻訳用のスマートフォンアプリは多数ありますが、ほとんどは単語を1対1で簡単に翻訳します。 ユーザーが単語を入力するか話すと、アプリは翻訳で跳ね返ります。 さて、目標と本当の金銭的見返りは、エンジニアと起業家が2人が異なる言語で会話できるようにする一方で、小さなデバイスがリアルタイムで翻訳を吐き出すことです。

既存の翻訳アプリ

ギリシャへの旅行で、英語を話すアンドリュー・ローダーは病気になりました。

「私は薬局に行きましたが、彼らは英語を理解できませんでしたので、私は薬を持っていませんでした」とVocre TranslateのCEOであるローダーは言います。 薬物のラベルは彼にとって文字通りギリシャ語でした。 言語の壁は、世界の旅行者に共通しています。 外国では、薬の購入や方向の取得などの小さな取引(ローダーが直面した別の困難)が非常に困難な仕事になります。

州に戻ったとき、Lauderは音声およびテキスト翻訳アプリVocre Translateを作成しました。 テキストからテキストへのアプリ(MyLangaugeと呼ばれる)として始まり、最初は音声からテキストへのモデルに変換されました。SayHiTranslateなどの他のアプリと同様に、単語が直接別の単語に翻訳される従来のモデルを使用しました。 「こんにちは」と言うと、スマートフォンまたはタブレットが自動化された「ホラ」を鳴らします。「さようなら」は「さよなら」になります。など、テキスト翻訳者のように。

シンプルな音声翻訳を作成するために、これらのアプリの作成者はデータが必要でした。 Vocreは、古い映画や公聴会などのパブリックドメインの録音やドキュメントから情報を引き出しました。 「基本的に、音声認識のためにクラウドを使用できるようにボイスメールの文字起こしサービスをお願いしました」と、SayHi CEOのリーボージャーは言います。

エンジニアが音声とテキストのデータを取得したら、音声とテキストを単語ごとにペアにしました。 音声認識ソフトウェアは「チーズ」を認識し、それをテキストに変換します。 これはフランス語に変換され、アプリは「fromage」のフランス語の発音を見つけます。

とは言っても、ユーザーが「安っぽい」ものを気楽に呼び出すと、翻訳者は機能しません。話された言語は、書かれた言語ほど静的ではないからです。 ケイデンス、スラング、語形変化、発音、方言、会話の流れが意味を変える可能性がある

しかし、時間の経過とともに、ローダーはより会話型のデバイスを望んでいました。 彼は電子メールで次のように述べています。「使用量データに基づいて、人々は書く方法とは非常に異なる話し方をすることがわかりました。 そこで、彼は統計的な機械翻訳を採用しました。これも、Googleがデータを使用して一般的な単語の使用を見つけるアプローチであり、従来の単語から単語への翻訳モデルはありません。 基本的に、Vocreは使用されると学習します。 「すべての会話、それを通過するすべてのフレーズに基づいて学習します。 時間とともに賢くなるものです」とローダーは言います。

それでも、現在のところ、両方のアプリは翻訳に数秒かかりますが、食事を注文するなどの取引上の会話には、特にボディーランゲージと連携して、間違いなく効果的です。 結局のところ、人間は長年にわたって母国語ではない食べ物を注文しており、常に何とか食べています。 しかし、彼らは詳細で複雑な会話をすることができませんでした。

VocreとSayHiを使用すると、会話が途切れることがありますが、母国語でのチャットとは異なります。 Googleはこれを全面的に変更する予定です。

Googleのアプローチ(統計的機械翻訳)

学校で新しい言語を学ぶとき、私たちは個々の語彙用語から始めます。 しかし、言語はより流動的です-言葉には文脈が必要です。

「[Google]がとるアプローチは、より一般的なアプローチです」とGoogle TranslateのソフトウェアエンジニアであるJosh Estelle氏は言います。 「これらすべてのルールをハードコーディングする代わりに、データを見てルールを学習しようとします。」

ハイテク企業は、1対1の単語ごとの方法を避け、代わりに統計的な機械翻訳を採用し、単語の意味ではなく、データを介して学習する言語のモデル化方法を調べます したがって、それは木ではなく森林を目指しています。 英語の例:単語「break」と「up」の定義はわかっています。しかし、フレーズ「break up」は、2つの単語の文字通りの組み合わせではありません

統計的な機械翻訳にはデータが必要です。 それの山。 この方法が機能するためには、「フロマージュ」がチーズのフランス語であるという事実だけでなく、「フロマージュ」と実際の文章で使用されているチーズの100の例が必要です。

エステルは、英語の話者が2つのメニューを持っている場合、1つは英語で印刷され、もう1つは中国語で印刷されるという事実を除いて、「中国語の文字が「スープ」の意味を理解できるでしょう」と述べています。 しかし、そのコンテキストを作成するには、数百万のメニュー、および考えられる他のすべてのドキュメントにアクセスする必要があります。

これはまさにGoogleが持っているものです。 Webの巨人が大量のデータを収集しなければ、現実のバベルの魚は存在できませんでした。 Webをクロールし、テキストと音声のすべてを収集します。 次に、このデータをアルゴリズムに送り、すべてを他のものと比較します。 これらの比較は、言語が自然にどのように機能するかの根本を理解するのに役立ちます。

「Translateについて話すときに人々を驚かせるのは、私たちのチームには言語学者がいないことです」とEstelle氏は言います。 「私たちは71の言語を発表しましたが、私たちのチームはそれらの大部分を話す方法を知りません。 人間の翻訳者は、[データ]がウェブから学べるほど速くこれらの用語や事柄をすべて学ぶことはできません。」

ポイントは何ですか?

Googleと同様、Facebookにもメリットがあります。 ソーシャルメディアサイトの翻訳への進出を検討してください。

「Facebookの使命は世界全体をつなぐことであり、世界をつなぐ障壁の1つは誰もが同じ言語を話すことではないことです」とFacebookのエンジニアリングディレクターであるTom Stockyは言います。 「翻訳の面では、あなたが母国語でFacebookを使用し、他の言語とやり取りできるようになれば、将来の本当に野心的なビジョンになると思います。」

過去8月、FacebookはJibbigoを買収しました。Jibbigoは、AndroidおよびiOSデバイスで使用可能な音声合成アプリです。

熱心なFacebookユーザーは、ソーシャルサイトが既に何らかの翻訳を採用していることに気付くでしょう。 英語ベースのページでスペイン語の投稿をしたことがある場合は、すぐにそれを母国語に翻訳する機会が与えられています。

しかし、Stockyは、音声コンポーネントを潜在的なゲームチェンジャーと見なしています。 スマートフォンとタブレットの台頭は絶え間なく相互接続された世界を歓迎し、音声認識ソフトウェアの台頭はWebインタラクションの新しい手段を招いています。 Stockyは、ユーザーが自分のスマートフォンにコマンドを話すだけで、言語の違いは別として、他のユーザーと対話できる未来を想定しています。

「言語エンジンの能力、そしてもちろん処理時間と処理能力だけが制限されているので、最終的に起こる疑問はありません」と彼は言います。

トゥレーン大学のグローバルヘルスシステムおよび開発部門の教授であり、テクノロジーに懐疑的なローラマーフィーは、普遍的な翻訳者の価値を疑問視し、複数の言語を知っている必要はありません。

彼女は、このデバイスは旅行、ビジネス、国際関係では多少役立つかもしれないが、画期的なものではないと考えています。 特定のレベルでは、すでに翻訳者(人)が配置されており、対外関係で働くほとんどの人は適切な言語を知っています。 デバイスは、ネガティブな結果をもたらす可能性があるとマーフィーは考えています。

「それは人々を怠laにすることができると思います」とマーフィーは言います。 言語の翻訳は、脳(特に2つ以上の言語を知っている言語)を異なる方法で働かせることで精神的に困難になる可能性がありますが、それでも演習はやりがいがあります。 脳は、最高の音声翻訳者でさえ到達できない言語的共感の場所から引き出されます。

この普遍的なコミュニケーションは肯定的かもしれませんが、マーフィーは「そうでないときにコミュニケーションをしていると考える人を導くかもしれない」と認めています。文化は常に言語で完全に具体化されているわけではありません(例えば皮肉を取ります)常に渡される情報について。

この技術はいつ見られるでしょうか?

「2005年、1, 000の文章を翻訳するのに40時間かかりました」とGoogleのEstelle氏は言います。 「今日、10ミリ秒ごとに1, 000文に相当するものを翻訳しています。」

リチャードアンダーソンが1970年代のテレビシリーズ「600万ドルの男 」で有名なように、「私たちには技術があります。」今では、データの収集と分析を待っています。 エステル氏によると、それがどれくらいかかるかは不明のままです。 しかし、慎重な見積もりにより、このようなデバイスは10年以内に手に入ります。

BossierのようなアプリクリエーターやGoogleやFacebookのような巨大企業は、バベルの聖書の塔の独自のバージョンを構築することを望んでいませんが、せせらぎに終止符を打ちたいと考えています。 それは、私たち全員が、医学について、政治について、アイデアについてコミュニケーションする世界を思い描いています。

そして、その世界は遠くないかもしれません。

編集者注:Vocre Translateテクノロジーを正確に説明するために、2014年4月4日にこのストーリーを更新しました。

キス言語の障壁さようなら