https://frosthead.com

マーガレットデイホフが現代のコンピューティングを生物学にもたらした方法

1984年、National Biomedical Research Foundationは、283, 000以上のタンパク質配列を含む無料のオンラインデータベースを立ち上げました。 今日、Protein Information Resourceにより、世界中の科学者は未知のタンパク質を取得し、データベース内の数千の既知のタンパク質と比較し、それがどのように異なっているかを判断できます。 そのデータから、タンパク質の進化の歴史とさまざまな生命形態との関係を迅速かつ正確に推測できます。

この大規模なオンラインデータベースの謙虚な起源は、インターネットよりずっと前に始まります。 それはすべて、Margaret Dayhoffという女性によって編集された65の当時知られているタンパク質配列を含む1965年の印刷された本であるAtlas of Protein Sequence and Structureから始まりました。 彼女のアトラスを作成するために、Dayhoffは最先端のコンピューター技術を応用して生物学的問題の解決策を見つけ、現在バイオインフォマティクスと呼ばれる新しい分野の誕生を導きました。 もともと化学者だったDayhoffは、第二次世界大戦後のコンピューティング時代の新しい進化するテクノロジーを活用して、化学者、生物学者、天文学者が地球上の生命の起源の学際的な研究に使用できる先駆的なツールを開発しました。

Dayhoff(当時のMargaret Oakley)は、1925年3月11日にフィラデルフィアで高校の数学教師Ruth Clarkと中小企業経営者Kenneth Oakleyに生まれました。 10歳で、彼女の家族はニューヨーク市に引っ越しました。 そこで、彼女は公立学校に通い、最終的に1942年にベイサイド・ハイのバレディクトリアンになりました。彼女は奨学金でニューヨーク大学のワシントン・スクエア・カレッジに通い、わずか3年後に1945年に数学で優等を卒業しました。

その同じ年、ダイホフはコロンビア大学に入学し、著名な化学者および第二次世界大戦作戦の研究者ジョージ・キンボールの指導の下で量子化学の博士号を取得しました。 彼女の受け入れは、当時としては珍しいものでした。 第二次世界大戦後、より多くの男性が科学に参入し、化学は過去10年よりも男性に支配されるようになり、化学博士号のわずか8%が女性になりました。

Dayhoffの大学時代、コロンビアはコンピューティングテクノロジーの温床でした。 米国で最初のコンピューティング研究所のいくつかを誇り、1945年に天​​文学者WJ Eckert率いるIBM Watson Scientific Laboratoryの拠点となりました。 ワトソン研究所は、第二次世界大戦の最後の数ヶ月で連合国のコンピューティングセンターとして初めて機能しました。 戦後、エッカートは後にアポロミッションの月軌道を計算するために使用した選択的電子計算機(SSEC)を含む最初のスーパーコンピューターのいくつかを開発するためのサイトになりました。

Dayhoffは、この技術をすぐに使えるようにして、化学への関心と、パンチカードマシン(基本的には初期のデジタルコンピューター)によるコンピューティングを組み合わせました。 これらのマシンにより、Dayhoffは計算を自動化し、あるセットのカードにアルゴリズムを、別のセットにデータを保存することができました。 彼女は機械を使用して、手作業よりもはるかに迅速かつ正確に計算を処理することができました。

Dayhoffの関心のある特定の主題は多環式有機化合物でした。これは、3つ以上の原子が閉環で結合した分子です。 彼女はパンチカードマシンを使用して、分子の共鳴エネルギー(特定の状態と平均状態の分子のポテンシャルエネルギーの差)について多数の計算を実行し、分子結合と結合距離の確率を決定しました。

Dayhoffは、わずか3年で量子化学の博士号を取得して卒業しました。 彼女が大学院生として行った研究は、Kimballを共著者として、1949年にJournal of Chemical Physicsの簡単なタイトルPunched Card Calculation of Resonance Energiesで発表されました。

また1948年、ダイホフはコロンビアで出会った実験物理学の学生であるエドワード・デイホフと結婚しました。 1952年、ペアはワシントンDCに移り、そこでエドワードが米国国立標準局の役職に就き、デイホフは2人の娘の最初の娘であるルースを出産しました。 デイホフはすぐに研究を中退して、メリーランド大学での2年間のポスドクの職を除いて、ルースと彼女の娘ジュディスの家にいる母親になりました。

彼女が研究に戻り、1962年に彼女の仕事に資金を提供するために助成金を申請し始めたとき、彼女はショックを受けました。 国立衛生研究所は、歴史家ブルーノ・ストラッサーが次のように書いているように、デイホフを主任研究者として挙げた助成金申請を拒否しました。彼の今後の本「 Collecting Experiments:Making Big Data Biology」 。 子どもを育てるために休暇を取った女性のためのこの種の上り坂は、科学機関が女性の進歩を妨げ、そして引き続き妨げている方法の1つにすぎません。

NIHのサポートの欠如にもかかわらず、Dayhoffは彼女のキャリアの中で最も重要な10年に入りそうでした。 1960年、彼女は夫を通して出会った先駆的な生物物理学者のロバート・レドリーからの運命的な招待を受け入れ、メリーランド州シルバースプリングにある国立生物医学研究財団に彼を招待した。 レドリーは、コンピューティング、生物学、医学の分野を組み合わせるという財団の目標にとって、デイホフのコンピュータースキルが不可欠であることを知っていました。 彼女は彼のアソシエイトディレクターとして21年間務めました。

一度メリーランド州に到着したDayhoffは、ジョージタウン大学の最新のIBM 7090メインフレームを自由に使用できました。 IBMシステムは、複雑なアプリケーションを処理するために設計されており、計算速度は以前のモデルの6倍高速です。 この速度は、より低速でかさばる真空管技術をより高速でより効率的なトランジスター(コンピューターの1と0を生成するコンポーネント)に置き換えることで達成されました。 メインフレームを使用して、DayhoffとLedleyは、ペプチド配列の検索と、部分配列を完全なタンパク質にアセンブルするために自ら作成したFORTRANプログラムとの比較を開始しました。

IBM 7090 IBM 729磁気テープドライブの2つのバンクを備えた1961年にNASA Ames Research CenterにあるIBM 7090オペレータコンソール。 (NASA)

生物学と化学にコンピューター分析を適用するというDayhoffとLedleyのコミットメントは異常でした。 「デジタルコンピューティングはもちろんのこと、統計分析の文化はほとんどの[生化学者]にとって完全に異質なものでした」とStrasser氏はSmithsonian.comのインタビューで説明しています 。 「一部の人々は、「理論家」ではないことに誇りを持っています。これは、数学モデルを使用したデータ分析を理解する方法です。」

しかし、Dayhoffのコンピューターに精通している科学的専門分野の1つは天文学でした。 このコンピューティングへの関心は、1940年にIBMパンチカードマシンを使用して惑星軌道を予測したWJ Eckhartのおかげです。 そして、1960年代には、宇宙探査へのアメリカの関心が本格的になり、それはNASAへの資金提供を意味しました。 メリーランド大学で、デイホフは分光学者のエリス・リッピンコットと出会い、1961年にハーバード大学でカール・サガンと6年間の共同作業を行いました。3人は物質の化学構造の熱力学モデルを開発し、惑星大気中のガスの平衡濃度を計算できます。

Dayhoffのプログラムにより、彼女、リッピンコット、およびセーガンは分析する要素を選択することができ、多くの異なる大気組成を調査することができました。 最終的に、金星、木星、火星、さらには地球の原始大気の大気モデルを開発しました。

空の探索中に、Dayhoffは、研究者が少なくとも1950年代から探索していたという質問も取り上げました。タンパク質の機能は何ですか? タンパク質の配列決定は答えを得る手段でしたが、個々のタンパク質の配列決定は非常に非効率的でした。 DayhoffとLedleyは異なるアプローチを取りました。 タンパク質を分離して分析する代わりに、彼らは異なる植物および動物種に由来するタンパク質を比較しました。 「異なる種の同じタンパク質の配列を比較することにより、配列のどの部分がすべての種で常に同一であるかを観察できました。これは、配列のこの部分がタンパク質の善のために重要であることを示しています」

Dayhoffは、タンパク質の共通の歴史に目を向けて、さらに深く調査しました。 彼女は、種間で同じ部分だけでなく、そのバリエーションも分析しました。 「彼らはこれらの違いを種間の進化距離の尺度として採用し、それにより系統樹を再構築することができました」とストラッサーは説明します。

Dayhoffは、常に新しい技術の力を活用する準備ができており、タンパク質配列を決定するコンピューター化された方法を開発しました。 彼女はカンジダ菌からクジラまで、多種多様な種のタンパク質のコンピューター分析を実行しました。 次に、彼女はそれらの違いを使用して、先祖の関係を判断しました。 1966年、リチャードエックの助けを借りて、デイホフは系統樹の最初の再構築を行いました。

1969年のScientific Americanの記事「Computer Analysis of Protein Evolution」で、Dayhoffはこれらのツリーの1つを公開し、コンピューターを使用してタンパク質を配列決定しました。 「確立された各タンパク質配列、照らされた各進化メカニズム、明らかにされた系統発生史の各主要な革新により、生命史の理解が向上します」と彼女は書いた。 彼女はライフサイエンスコミュニティにコンピューター化されたモデルの可能性を見せようとしていました。

彼女の次の目標は、研究者が配列を見つけて他の配列と比較できる1つの場所ですべての既知のタンパク質を収集することでした。 今日とは異なり、キーワードだけで電子データベースのソースを簡単に呼び出すことができる場合、Dayhoffは物理ジャーナルを探して探しているタンパク質を見つける必要がありました。 多くの場合、それは仲間の研究者の研究でエラーをチェックすることを意味していました。 コンピューターの助けを借りても、シーケンスを収集してカタログ化する作業には、膨大な時間と鋭い科学的目が必要でした。

彼女がやっていることに誰もが価値を見なかった。 他の研究者にとって、Dayhoffの研究は、20世紀の科学者の実験的な研究ではなく、19世紀の自然史の収集と目録作業に似ていました。 「自然の物を収集、比較、分類することは、20世紀後半の多くの実験生物学者にとっては時代遅れのようでした」とStasser氏は言います。 彼は、デイホフを「アウトサイダー」と呼んでいます。「彼女は存在しない分野に貢献したため、専門家としての認知度がありませんでした」と彼は言います。

1965年、Dayhoffは、データベースの印刷版であるAtlas of Protein Sequence and Structureに65の既知のタンパク質のコレクションを初めて公開しました。 最終的にデータは磁気テープに移動し、現在はオンラインで生活し、研究者は彼女のデータを使用してさらに多くのタンパク質を見つけ続けています。 1971年に開始されたタンパク質と核酸の共同コレクションであるProtein Data Bankや1982年に開始された遺伝子配列データベースであるGenBankなど、他の生物医学データベースが争いに加わりました。Dayhoffは科学革命を開始しました。

「今日、実験生物学のすべての出版物には、新しい実験データと、公開データベースで利用可能になった他のデータとの比較から導き出された推論の組み合わせが含まれています。

バイオインフォマティクスが成長するにつれて、収集と計算のタスクは主に女性に委ねられました。 アトラスに関するDayhoffの協力者は、Ledleyを除くすべての女性でした。 1960年代のNASAの女性「コンピューター」や第二次世界大戦の女性の暗号解読者のように、これらの女性はすぐに科学的実践の限界に追いやられました。 最初のデジタル汎用コンピューターをプログラムした「ENIACガールズ」について、ジェニファーライトの計算史家は、「女性が前例のない仕事に従事したのは、まさにそのような低地位の職業分類の範囲内にある」と書いています。

デイホフの伝記スケッチで、 アトラスと一緒に働いていたロイス・T・ハントは、デイホフが地球の原始大気の調査が彼女に「生命の形成に必要な化合物」を与えると信じていると書いた。コンピューティングは、Dayhoffの科学的研究の異なる部分を結びつけるものです。 小さなタンパク質から広大な大気まで、デイホフはこの惑星での生命の出現の秘密を探していました。 彼女はそれらのすべてのロックを解除しませんでしたが、彼女は現代科学に検索を続けるためのツールと方法を与えました。

マーガレットデイホフが現代のコンピューティングを生物学にもたらした方法