DeepMindがAlphaFoldで折りたたみを行った人体のすべてのプロテオームをオンライン化

DeepMind（ディープマインド）と数社の研究開発パートナーは、人体を構成するほぼすべてのタンパク質の3次元構造が格納されたデータベースをリリースした。この3次元構造は、2020年実証された画期的なタンパク質フォールディングシステムAlphaFoldを使って、コンピューター上で算出したものだ。無料で利用可能なこのデータベースは、数百の分野や領域に及ぶ科学者たちに大幅な進歩と利便性の向上をもたらし、生物学と医学において新しい段階の礎を形成する可能性が高い。

AlphaFoldタンパク質構造データベースは、DeepMind、欧州バイオインフォマティクス研究所、その他の研究機関が協力して構築したもので、数十万のタンパク質アミノ酸配列について、その構造をAlphaFoldによって予測した結果が格納されている。最終的には、さらに数百万を追加して「世界のタンパク質年鑑」を作成する計画だ。

「この取り組みは、科学知識を高めるためにこれまでにAIが行った最も重要な貢献であると確信しています。また、AIが社会にもたらすことができる利点のすばらしい一例でもあります」とディープマインドの創業者兼CEOであるDemis Hassabis（デミス・ハサビス）氏はいう。

ゲノムからプロテオームへ

無理もないことだが、プロテオミクス全般について馴染みのない方もいると思うので、簡単に説明しておく。プロテオミクスのイメージを把握するには、別の大きな取り組みであるヒトゲノムの解読作業について考えてみるのが一番良い。ヒトゲノムの解読は、1990年代から2000年代にかけて、世界中の多数の科学者グループや組織が長年に渡って取り組んだ一大作業だ。そして遂にヒトゲノムが解読されたおかげで、数え切れない症状の診断と理解に大いに役立ち、そうした症状の治療薬や治療法の開発が進んだ。

しかし、ヒトゲノムの解読はこの分野における取り組みのほんの始まりに過ぎなかった。喩えていえば、巨大なジグゾーパズルの縁のピースがようやくすべて埋まった段階だ。当時、誰もが注目していた次の大きなプロジェクトは、人のプロテオーム、つまり、人体で使用されており、ゲノムにコード化されるすべてのタンパク質を把握することだった。

プロテオームを把握するときに問題となるのは、ゲノムの解読よりもはるかに複雑であるという点だ。タンパク質はDNAと同様、既知の分子の配列だが、DNAでは、アデニン、グアニンなど、お馴染みの4種類の塩基しか存在しない。しかし、タンパク質では、20のアミノ酸が存在する（各アミノ酸は遺伝子を構成する複数のベースによってコード化される）。これだけでも、DNAに比べてはるかに複雑だが、それは一端に過ぎない。アミノ酸の配列は単なる「コード」ではなく、実際には、編み込まれ、畳み込まれて小さな分子折り紙マシンを形成し、これが人体であらゆる種類のタスクを遂行する。ちょうど、2進コードから、実世界のモノをあらわす複雑な言語に翻訳されるようなものだ。

これは事実上、プロテオームが数百のアミノ酸の2万個の配列で構成されているだけでなく、その各配列に物理的な構造と機能が備わっていることを意味する。プロテオームの最も難解な部分は特定の配列からどのような形状が形成されるのかという点だ。この解析は一般に、X線結晶構造解析などを使用して実験的に行われるが、1つのタンパク質を解析するのに、数カ月またはそれ以上の長く複雑なプロセスを要する。たとえ、最高の実験室と実験技術が使えるとしてもである。タンパク質の構造はコンピューターでも予測できるが、これまでは十分に信頼性の高い予測結果が得られていなかった。が、AlphaFoldの登場でそれが一変したのだ。

構造生物学の分野に驚きをもたらす

この記事ではコンピューターによるプロテオミクスの歴史について深く立ち入ることはしないが、基本的には、15年前の分散型の力技方式（Folding@homeを覚えているだろうか）から、この10年間でより洗練されたプロセスへと移行してきた。そこにAIベースのアプローチが登場し、DeepMindのAlphaFoldが世界中の他のシステムを一足飛びに追い抜いて世界を驚かせた。2020年にはさらに大きな前進があり、一部の専門家たちに、任意のアミノ酸配列を3次元構造に変換する問題は解決されたと言わしめるほどの高い精度と信頼性が達成された。

私がこの長い歴史を上記の1段落にまとめたのは、詳細な説明は以前の記事で行ったからだが、今回の前進がいかに突然でなおかつ完全なものだったことは強調しても強調しすぎることはない。数十年に渡って世界中の最高の頭脳を悩ませてきた問題が、1年のうちに「使えるアプローチはあるかもしれないが、極端に遅く、コストが極めて高い」というレベルから「正確で、信頼性が高く、市販のコンピューターで実行できる」というレベルにまで進歩したのだから。

画像クレジット：DeepMind

今回DeepMindが実現したブレイクスルーの詳細とその達成方法については、コンピューターバイオロジーとプロトテオミクスの分野の専門家たちにおまかせすることにする。彼らが、今後数カ月および数年かけて、今回の進歩の内容を分解して繰り返し説明してくれるだろう。我々が今懸念しているのは実際の結果だ。DeepMindは現在、AlphaFold 2（2020年時点のバージョン）の公開以来、彼らが入手できるあらゆるタンパク質のアミノ酸配列について、今回のモデルの微調整だけでなく実行に時間を費やしている。

同社によると、その結果、人体プロテオームの98.5％の「たたみ込み」を完了したという。つまり、AIモデルが充分な信頼性があると判断した（そして何より、我々が充分に信頼できる）予測結果が、現実になったということだ。同社は、人体以外にもイーストやE. colなど、20の有機体についてプロテオームのたたみ込みを完了しており、合計で35万のタンパク質の構造が明らかになった。これはもちろん、これまでのレベルをはるかに凌ぐ、最大かつ最高のタンパク質構造コレクションだ。

これらはすべて無料でブラウジング可能なデータベースとして公開される予定だ。研究者は、アミノ酸配列またはタンパク質名を入力するだけでその3次元構造を即座に表示できる。プロセスとデータベースの詳細については、雑誌ネイチャーに掲載されている論文をお読みいただきたい。

「このデータベースは、見ていただければ分かるとおり、検索バーになっています。タンパク質構造のグーグル検索のようなものと考えてください」とTechCrunchのインタビューでハサビス氏はいう。「3次元構造を3Dビジュアライザーで表示して、各部を拡大縮小したり、遺伝子配列を質問したりできます。EMBL-EBIと連係しているため、EMBL-EBIの他のデータベースともリンクされています。ですから、関連する遺伝子に即座に移動して表示できます。他のすべてのデータベースとリンクされているため、他の有機体の関連する遺伝子、関連する機能を持つ他のタンパク質などを確認できます」。

「私自身科学者として、計り知れない奥深い機能を備えたあるタンパク質の働きに取り組んでいます」とEMBL-EBIのEdith Heard（エディス・ハード）氏はいう（同氏は具体的なタンパク質の名前には触れなかった）。「現時点の、特定のタンパク質の先端部の構造を即座に確認できるのは、本当にすばらしいことです。これまでは何年もかかっていましたから。タンパク質の構造を調べて「なるほど。これが先端部か」と納得して、その先端部が実際に行っている仕事の研究に集中できます。これによって科学の進歩が数年単位で加速されるのではないかと思います。20年ほど前に、遺伝子配列を決定できるようになったときと同じように」。

こういうことが可能になったのは本当に画期的なことなので、この分野の研究全体が一変し、それと並行してこのデータベースも変わっていくのではないか、とハサビス氏はいう。

「構造生物学者たちはまだ、ほんの数秒でタンパク質の構造を調べられるという状況に慣れていません。これまでは、実験で何年もかけて調べていたわけですから」と同氏はいう。「これによって、質問の立て方とか実験のやり方という点で、これまでとはまったく異なる新しいアプローチが生まれるのではないかと思います。そうしたことができることが分かってくると、例えば1万のタンパク質を特定の方法で関連付けるとどうなるのか確認したい、などというセレンディピティ（偶然の発見）的な質問にも答えることができるツールが構築されるようになるかもしれません。今は誰もそんな質問を立てることもありませんから、そんなことをする通常的な方法もありません。ですから、我々は新しいツールの作成を開始する必要があると思います。研究者たちがこのデータベースの使い方に慣れてくれば、そうしたツールの需要はあるでしょう」。

これには、長い開発の歴史の中でオープンソース形式でリリースされてきたソフトウェアの派生バージョンと改善バージョンも含まれる。ワシントン大学のベイカー研究室の研究者によって独立に開発されたシステムRoseTTAFoldもすでに存在している。このシステムは2020年、AlphaFoldのパフォーマンスを上回り、同じような構造をより効率的に作成できるようになった。ただし、DeepMindは最新バージョンで再度トップの座を取り戻したようだ。いずれにしても、こうした秘密兵器が誰でも使えるようになったということだ。

現実的なマジック

構造生物情報工学者にとって一番の夢が実現する見込みがあるのはすばらしいことだが、DeepMindとEMBL-EBIが実現したシステムが即座に現実の利点をもたらすことも重要な点だ。その利点が明らかに見てとれるのは、Drugs for Neglected Diseases Institute（DNDI）とのパートナーシップだ。

DNDIは、その名前から想像できるように、稀であるがために、治療法の発見につながる可能性のある大手の製薬会社や医療研究機関からの注目や投資の対象とならない病気に焦点を当てている。

「これは臨床遺伝学の分野では極めて現実的な問題です。この分野では、症状のある子どもに遺伝子配列の異常が疑われる場合、その特定の遺伝的疾患の原因となっている可能性の高い遺伝子を特定する必要があるからです。タンパク質の構造情報が広く利用できるようになれば、そうした作業が大きく改善されることはほぼ間違いありません」と、DNDIのEwan Birney（イワン・バーニー）氏は今回のリリースに先立って報道陣に語った。

特定の問題の根本原因であることが疑われるタンパク質を調べる作業は通常、大変な費用と時間を要する。ましてや実際の患者が少ない病気の場合、癌や認知症といったより一般的な患者数の多い症状が優先され、お金と時間はますます不足する。しかし、10の正常のタンパク質と10の配列異常のあるタンパク質の構造を簡単に比較できれば、これまでのように何年にも渡って綿密な実験作業を行わなくても、ものの数秒で原因が明らかになるかもしれない（治療薬の発見と臨床試験には数年かかるが、それでも、たとえばシャーガス病の原因究明を、2025年からではなく明日からすぐに始めることもできるのだ）。

RNAポリメラーゼII（タンパク質）がイースト内で機能しているところ（画像クレジット：Getty Images / JUAN GAERTNER/SCIENCE PHOTO LIBRARY）

実験的に結果が確認されていない構造について、コンピューターの予測に頼りすぎているのではないかと思われるといけないので、まったく別のケースを紹介しよう。このケースでは厄介な実験による確認作業の一部をすでに終えていた。ポーツマス大学のJohn McGeehan（ジョン・マクギーハン）氏（別の潜在的な使用事例でDeepMindと連携した）は、同氏のチームのプラスチック分解の取り組みにどのような影響があったかを説明してくれた。

「最初我々はDeepMindに7つのアミノ酸配列を送りました。そのうちの2つは実は、実験による構造解析をすでに終えていたのです。ですから、結果が返ってきたときにその2つについてはテストできました。そのときは正直、身の毛がよだつような興奮を覚えました」とマクギーハン氏はいう。「DeepMindが作成した構造は、我々が実験で確認した結晶構造と完全に一致していたのです。いえ、場合によっては、結晶構造から分かるよりも詳細な情報が含まれていました。我々はその情報を使って、より高速に作用するプラスチック分解酵素を直接開発することができました。その酵素の実験は、すでに始まっています。ですから、我々のプロジェクトは数年分前進したと言えるでしょう」。

DeepMindの計画は、今後1、2年の間に、あらゆる既知の配列済みタンパク質の3次元構造を予測することだ。その数は1億近くにもなる。その大部分について（数は少ないがこのアプローチでは対応できない構造もある。それについては、まもなく公開されるようだ）生物学者たちは予測結果を信頼できるはずだ。

3次元の分子構造を調べるのは数十年前から可能だったが、そもそもその構造を見つけること自体難しい（画像クレジット：DeepMind）

AlphaFoldが構造の予測に使っているプロセスは、ある意味、実験的な方法よりも優れている。AIモデルがその予測結果に達する過程については不明確な部分も数多くあるものの、ハサビス氏にとって、これは単なるブラックボックスではないことは明白だった。

「このケースの場合、説明可能性は、プラスチックの分解というその用途の重要性を考えると、機械学習に対してよく言われるように、『あればいい』というものではなく、『なくてはならない』ものだったと思います」と同氏はいう。「ですから、このケースについては、説明可能性が確保されるように、特定のシステムに対してできることはすべてやったと思います。アルゴリズムの粒度という意味での説明可能性、出力、予測結果、構造という観点からの説明可能性、そしてそれらの信頼性、予測された領域のうち信頼可能な部分という意味での説明可能性があります」。

にもかかわらず、同氏はシステムの説明に「奇跡的」という言葉を使っていたため、私の見出し語に対する特殊感覚が引きつけられた。ハサビス氏によると、このプロセス自体には奇跡的な部分は何もないが、その処理によって作成されるものがあまりにパワフルなので少し驚いたのだという。

「これまでで最も困難なプロジェクトでした」と同氏はいう。「コードの動作方法、システムの動作方法については詳細部分まで明確であり、すべての出力も確認できるのですが、システムが行っていること、つまり、この1次元のアミノ酸の鎖を取り込んで美しい3次元構造を作成するのを見ると奇跡的という言葉を使いたくなるのです。しかもその構造の多くは審美的にも信じられないくらい美しく、科学的および機能的にも価値のあるものでしたから。ですから、あれはある種の感嘆の言葉だったと思います」。

大量のたたみ込みの実行

AlphaFoldとプロテオームデータベースがもたらしたインパクトはすぐに広く伝わらなかったものの、初期のパートナーが証言しているように、これが短期的にも長期的にも重大なブレイクスルーになることはほぼ間違いない。しかし、だからといってプロテオームの神秘が完全に解決されたわけではない。それどころか、解決にはまだほど遠い。

前述のとおり、基本的なレベルでのプロテオームの複雑さに比べれば、ゲノムの複雑さなど何でもないが、このDeepMindがもたらした大きな進歩を以ってしても、プロテオームの上っ面をなでただけに過ぎない。AlphaFoldは、非常に限定的だが、非常に重要な問題を解決する。すなわち、アミノ酸の配列を受け取って、その配列が実際に実現する3次元形状を予測する。しかし、タンパク質は真空中に存在するわけではない。構造を変え、破壊と再生を繰り返し、さまざまな条件、および要素や他のタンパク質の存在に反応し、それらに応じて自身も形を変える複雑でダイナミックなシステムの一部だ。

実際、人体を構成する多くのタンパク質の中には、AlphaFoldがその予測結果に中くらいの信頼性しか与えられなかったものが大量にある。こうしたタンパク質は、基本的に「無秩序な」タンパク質であり、あまりに可変的であるため静的なタンパク質のように特定することができない可能性がある（静的なタンパク質の場合、AlphaFoldは非常に精度の高い予測システムであると評価されることになる）。このように、解決しなければならい問題はまだまだ山積みの状態だ。

「新しい課題に目を向けるときがきています」とハサビス氏はいう。「もちろん、まだ課題は山積みです。それでも、先程触れたタンパク質の相互作用、複雑さ、リガンド結合といったさまざまな問題に我々は取り組んでおり、こうした課題を解決する極めて初期段階のプロジェクトも立ち上げています。しかし、今回の大きな前進は少し時間を取って取り上げる価値はあると思います。それはコンピューターを使った生物学のコミュニティで20年から30年にも渡って取り組みを続けてきた問題であり、今回ようやくその最重要部分が解決されたと考えています」。

画像クレジット：DeepMind

［原文へ］

（文：Devin Coldewey、翻訳：Dragonfly）

TechWatch