https://frosthead.com

Googleがどのようにスパムを受信トレイから保護するか

どの検索結果が最も重要かを判断することから、メールのタブを読んで維持することまで、Googleのすべての情報処理の背後には、興味深い数学があります。 そして最近、ソフトウェアエンジニアのJavier Tordableがプレゼンテーションを行い、こっけいなGoogleの世界への扉を開けました。

Gmailから始めましょう。 迷惑メールを受け取ることもありますが、Gmailは、特派員がナイジェリアの王子に投資させようとしているとき、おそらくそのメールを受信トレイに入れたくないことを理解するのが得意です。 どうやってわかるの? ステップ1:マシンをトレーニングします。 ステップ2:それを機能させる。

それは機械学習と呼ばれ、Googleはそれを大量に行っています。 ステップ1では、コンピューター科学者が「インスタンスの特性化」と呼ぶものを実行する必要があります。数学的に言えば、次のことを意味します。

一般に、インスタンスの特性は、大きなnのn次元ユークリッド空間のベクトル内の要素と見なすことができます(100-1000次元は正常で、1M-10Mは前代未聞ではありません)

しかし、Calc 1の後で数学を止めた場合の考え方は次のとおりです。Gmailは、特定のメールからいくつかの重要な情報を引き出すことができます。 それはどのくらい長いですか? 大文字はいくつありますか? これは以前にメールを受け取った人からのものですか? 判断が難しくなりすぎて対処できないと判断されるのに必要な情報は、マシンの精度を低下させ、低下させるため、望ましくありません。 そのため、Googleはスパムについて知っていることに基づいて線を引きます。 通過する電子メールは回線の一方に、スパムメールはもう一方に落ちます。

より多くの数学が話す:

単純な分類モデルは、特性の空間における超平面です。 ハイパープレーンの片側のデータインスタンスは有効な電子メールとして分類され、反対側のインスタンスはスパムとして分類されます。

自動音声認識(ASR)とも呼ばれる音声検索についてはどうですか? 機械学習と同様に、ASRは2つの部分で発生します。入ってくる音の処理と、あなたの言っていることの把握です。 最初の部分はフーリエ変換を含み、コンピューターが変換できる重要なビットを分離します。 2番目の部分は、「隠れマルコフモデル」と呼ばれるものを使用して音声をモデル化することです。

このモデルでは、状態はメッセージの文字であり、イベントのシーケンスは音声信号です。 ビタビアルゴリズムを使用して、最尤状態のシーケンスを取得できます。

Googleは音声認識をより良く簡単にしたいと思っています。 このケーススタディでは、Googleのグループが次のように書いています。

Googleの目標は、音声アクセスをどこでも利用できるようにすることです。 ユーザーが選択できるようにしたいと思います-音声対話は常にオプションであることを当然のことと考えてください。 ユビキタスを実現するには、可用性(音声入力または音声が意味をなす可能性のあるあらゆる対話に組み込まれる)とパフォーマンス(モダリティが相互作用に摩擦を加えないほどうまく機能する)の2つが必要です。

Googleが数学を使用するもう1つの分野は、マップ内です。Appleがマッピングシステムをかなり批判してデビューさせた後、最近注目を集めています。 Googleマップの中心にあるのは、基本的なグラフ理論です。最短距離を移動しながら、ある場所から別の場所に移動する数学です。 しかし、もちろん、それはそれよりも複雑です。 Tordableは、「Googleマップで使用されるグラフには数百万のノードが含まれているが、アルゴリズムはミリ秒単位で実行する必要があるというユニークな問題があります。」

Googleは、その方法を教えてくれません。 そうでなければ、Appleはその問題にぶつかりませんでしたが、基本はDijsktraのアルゴリズム(おそらく最も一般的に使用されるグラフ検索アルゴリズム)をシャッキングすることです。 数年前、カールスルーエ大学のコンピューター科学者は、パスクエリをランク付けしてより高速な結果を得る新しい方法を説明しました。 彼らが書きました:

アルゴリズムは、線形空間を使用して、数時間で米国または西ヨーロッパの地図に必要な8桁のノードを前処理します。 最短(つまり最速)のパスクエリは、正確な最短パスを生成するために約8ミリ秒かかります。 これは、ダイクストラのアルゴリズムを使用するよりも約2, 000倍高速です。

Tordableは、Googleブックス、画像検索、アナリティクス、YouTube、Google翻訳、Google Earth、Picasaなど、Googleが使用する他の多くの数学ツールを使用します。 スライドのセット全体をここで見ることができます。

Smithsonian.comからの詳細:

スミソニアン、Googleマップを取得
Googleブックスで食品トレンドを追跡する

Googleがどのようにスパムを受信トレイから保護するか