全5637文字
PR
この記事は日経Robotics 有料購読者向けの記事ですが
日経Robotics デジタル版(電子版)』のサービス開始を記念して、特別に誰でも閲覧できるようにしています。
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 遺伝子配列からタンパク質の立体構造を決定する問題、いわゆるProtein Folding問題は生命科学におけるグランドチャレンジとして50年近く、多くの研究者が取り組んできた。タンパク質の立体構造がわかれば生体内の様々な機構解明につながる上、疾病の原因解明や創薬につながると期待されている。

著者の岡野原大輔氏
著者の岡野原大輔氏

 タンパク質の立体構造は実験を通じて決定できる場合もあるが多くの労力とコストが必要である。決定するには対象のタンパク質を大量に発現させ、精製した上でX線結晶構造解析、低温電子顕微鏡(クライオEM)などで測定し構造を決定する。1つの構造を決定するのに数日から数カ月を要し、時には数年かかっても決定できない。また、多くのタンパク質は実験的に構造決定が難しい場合が多い。例えば生命現象としても創薬のターゲットとしても重要な膜タンパク質は膜の中の構造を保ったまま取り出すことが難しく、疎水性があり結晶化も難しい。ヒトのタンパク質の17%が構造決定されており、残りは未決定であった。

 この問題に対し、米Alphabet社の子会社である英DeepMind社はAlphaFoldとよばれるシステムを構築し、2020年11月にCASP 14とよばれるProtein Foldingの精度を競い合うコンテストで2位以下を圧倒する成績を達成して優勝した。ほぼ実験結果に近い構造を予測することができた。

 CASPコンテストを創設した米University of Maryland 教授のJohn Moult氏は「ある意味で、この(Protein Folding)問題は解けたと言える」、「AIが初めて重要な科学的問題を解いた事例だ」と述べた。

 DeepMind社は2021年7月には技術詳細の論文を公開1)すると同時に、推論部分のソースコード2)を公開し、また学習済モデルもあわせて公開した。世界中の多くの研究者がAlphaFoldを動かして自分の持っているデータを決定し、その中には数年間構造決定できなかったのがAlphaFoldで決定できたと述べている研究者もいた。

 また、DeepMind社と欧州分子生物学研究所(EMBL)はAlphaFoldで構造予測した2万のヒトプロテオームすべてを含む35万を超えるタンパク質のデータベースを公開した3-4)。これまでヒトのタンパク質の17%が実験的に構造決定されてきたが今回のAlphaFoldを使って98.5%を予測できた。そのうち36%については非常に高い確信度で決定できたとしている。今後数カ月で1億を超える配列のほとんどを構造予測し公開すると述べている。

 本稿ではこの問題の意義とAlphaFoldの技術詳細、今後の展望について述べる。

タンパク質フォールディング

 タンパク質は20種類のアミノ酸がペプチド結合で鎖状につながってできた高分子化合物であり生体の構造や機能の中心的な役割を果たしている。DNAに保存された遺伝情報はmRNAを介してタンパク質として発現される。タンパク質の構造は、アミノ酸の種類に関係しない中心のつながりを主鎖とよび、枝のように主鎖から分岐し横に広がるアミノ酸に固有の部分を側鎖とよぶ。また1つのアミノ酸のユニットを残基とよぶ。タンパク質は疎水性相互作用、分子内水素結合、ファンデルワールス力によって導かれる自発的過程で非常に複雑な構造を一瞬(数μsから数ms)で構成する。構造決定はこの主鎖と側鎖がとる構造を決定することである。

 前述のように実験を通じてタンパク質の構造を決定するには多くの時間、コスト、労力を必要とするため、アミノ酸配列を入力とし、タンパク質の構造を予測するようなシステムを作ることが生命科学の1つの目標であった。この目標達成を促進させるため、1994年より世界中の研究コミュニティが予測手法を競い合うCASPが2年毎に開催されていた。このコンテストでは世の中でまだ構造が公開されていないタンパク質を対象に各チームが構造を予測し、実験的に決定された構造と予測結果を比較し評価する。

 こうした中DeepMind社は2018年にCASP 13に出場しAlphaFold v1で優勝したが2位以下とは接戦であった。そして2020年11月にAlphaFold v1とは異なるアーキテクチャを持ったAlphaFold2でCASP 14に出場し、2位を圧倒するスコアで優勝した。主鎖の精度は0.96Å $RMSD_{95}$(95%の残基のカバレッジでの平均二乗誤差)であり、2位の2.8Å $RMSD_{95}$を大きく超えていた。ちなみに炭素-炭素間共有結合距離が1.4Åである。また、側鎖も含めた全体の精度は1.5Åであり、2位の3.5Åを大きく超えていた。従来の予測方法を超える高精度な予測が可能である。以降の説明でAlphaFoldはこのAlphaFold2を指す。

AlphaFoldの技術詳細

 AlphaFoldは新しいネットワークアーキテクチャと学習方法を用いてこの結果を達成した。以前のAlphaGoと同様に、AlphaFoldも全く新しい手法を採用して達成したというよりは多くの手法をうまく組み合わせ工学的にそれを使えるようにまとめあげた部分の貢献が大きい。とはいえ、通常の論文でいえば10報分近く新しいアイデアや工夫が盛り込まれている。

 これまでタンパク質の構造解析には熱力学や動力学に基づいて決定する方法と、既に構造が決定されている進化系統樹的に近い遺伝子配列を探し、それを参考にして推定する進化論に基づく方法が使われていた。前者はタンパク質の分子量が非常に大きいこと、また環境要因で安定状態を求めることが計算量的に難しい問題があった。ここ数年は多くの構造が決定されてProtein Data Bankに蓄積されてきたこともあり進化論に基づくアプローチが有力となっていた。しかし、データベース中に似た配列が存在しない場合は進化論的なアプローチは有効ではなく、またその精度も十分ではなかった。AlphaFoldはこれらのアプローチを組み込みながら、機械学習で構造を直接推定する。

 AlphaFoldは大きく2つのステージから成る。最初のステージは入力配列の特徴を決定し、続くステージは求められた特徴から構造を決定する。

 最初のステージでは、従来の進化論に基づくアプローチと同様にMSA(Multiple Sequence Alignment)とよばれる入力配列と似た多数の配列をデータベースから探索し、対応する残基が並ぶように整列させたデータを作る。

 次に、$N_{seq}$をMSAで集めた配列数、$N_{res}$を配列長とした時、MSAを表す$N_{seq} \times N_{res}$のサイズを持った行列と、残基間のペアを表す$N_{res} \times N_{res}$というサイズをもった行列を保持し、これらを更新していく。これらの行列ではチャンネル方向は省略しているが実際は$N_{seq} \times N_{res} \times C$というテンソルを保持する。前者をMSA表現、後者をペア表現とよぶことにする。MSA表現はMSAの結果で初期化し、ペア表現はMSAの配列毎の外積を計算してそれらを足し合わせたものとして得る。

 次に、Evoformerとよぶネットワークを使ってMSA表現とpair表現を更新していく。MSA表現は軸毎の注意機構を使って更新する。ペア表現は、残差間のグラフだと考え$i,j, k$の3つの残基を考えた時に$j, k$間の更新をする際に$ij, ik$間の関係を考慮した上で更新するTriangle multiplicative updateを適用する。この手法自体は注意機構の代わりに使われていた手法だがそれを利用した。そしてペア表現の情報は再度MSA表現に残基間の注意機構時のバイアスとして利用される。このEvoformerを48ブロック重ね、MSA表現とペア表現を得る。

 2つ目のステージではMSA表現での元の入力に対応する行、ペア情報、そして主鎖の現在の推定結果を入力とし構造を出力する。主鎖の構造はグローバルフレームに対する各残基のローカルフレーム$T_i := (R_i, \mathbf{t}_i)$として表現される。各残基のローカル座標$\mathbf{x}_{local}$は$\mathbf{x}_{global} = R_i \mathbf{x}_{local} + \mathbf{t}_i$としてグローバル座標$\mathbf{x}_{global}$と変換される。ネットワークはローカルフレームと、主鎖と側鎖のねじれ角(Torsion Angle)を逐次的に出力し、構造を修正していく。

 はじめは不変点注意機構(IPA:Invariant Point Attention)を使って内部状態を更新する。このIPAはグローバルフレームの回転や並行移動に対して結果が不変になるように設計した注意機構である。これらで特徴を更新した後に各位置でフレームを更新すると共にねじれ角を更新する。そして、主鎖の構造が決定された後に側鎖の構造を、独立に更新する。

 全てのフレームが原点で同じ位置、向きにいる状態で初期化し、次にこれらの操作を繰り返し適用していくことで逐次的に構造を決定していく。学習時には途中の構造でも正解との差で誤差を計算し、途中の構造にも有効な学習シグナルが流れるようにする。

 そして、最終的には分子動力学に基づくfine-tuneを行って物理的におかしな構造になっている部分を修正する。

 このようにして入力から構造が決定されるが、この出力を重みを共有した同じネットワークに再度流し、繰り返し構造を改善していく。これをネットワークリサイクリングとよぶ。リサイクリングで同じネットワークに何回も入れた上で構造を修正する。実際どのように構造が決定されていくのかをみてみると徐々に構造が決定されていくのをみることができる。

 AlphaFoldはラベルデータとラベル無しデータの両方を使って学習する。ラベル有りデータにはPDBデータを利用した。ラベル無しデータは、教師ありで学習して作ったモデルを使って35万の多様な配列の構造を決定し、確信度の高い予測結果を正解に加える。自己蒸留(noisy-studentとよばれる)として、自分で予測した結果を目標にして予測する際には、強いオーグメンテーションを入力に加えておくことで、難しい問題設定でも予測できるように学習する。このnoisy studentは他の多くのタスクでも成功している。

 また、BERTと同様にランダムに配列の一部を消したり、あるいは別のアミノ酸に変更し、マスクされたこれらの入力を予測できるようにして、教師なし学習を行っている。

 従来はドメイン毎に構造予測していたが、AlphaFoldは配列全体を処理しドメイン間で相互作用する場合に対応することができる。

AlphaFold以後はどうなるか

 AlphaFoldによってタンパク質の構造予測が格段に容易になったのは確かであり生命科学の進展が大きく加速されるとみられる。生命科学の研究の仕方や創薬の仕方が変わることは確かだろう。例えばAlphaFoldによって構造がはじめてわかったタンパク質で薬が結合しやすいスポットを探索し、それにあった化合物を探すことや、構造変化を起こしやすい遺伝子変異などを特定し、それらを修復するといったことが進められるだろう。

 だが、これだけで新しい薬がすぐできたり生命現象が一気に解明されると考えるべきではない。生体内ではタンパク質は単独では存在せず非常に複雑な相互作用によって生体機構が実現されているためだ。また、AlphaFoldが苦手な問題設定も多く存在する。例えば今回のCASPやAlphaFoldは単一のタンパク質の構造決定が目標だったが、生体内ではタンパク質は複数のタンパク質や他の物質と結合した状態で存在し異なる構造をとることが一般的だ。場合によっては複合体も予測できる場合も報告されているがギャップがある。また、AlphaFoldは構造決定の学習シグナルの大部分は教師あり学習から来ており、未知のタンパク質の予測精度は十分ではない。精度も創薬などではオングストローム(Å)よりも細かいサブオングストロームのオーダーが求められ、ペプチド以外の低・中分子化合物の構造予測やそれらの結合予測ができるようになるのが課題である。

本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 これより先に進むにはさらなるネットワーク、学習手法の発展に加えて前回説明したような量子化学や熱力学などの理論から構造を決定するシミュレーション技術、実験解析技術、生体内での情報を読み取る技術の進展が必要になると考えられる。

1)J. Jumper et al., “Highly accurate protein structure prediction with AlphaFold,” Nature 2021.
2)https://github.com/deepmind/alphafold
3)K. Tunyasuvunakool et al., "Highly accurate protein structure prediction for the human proteome,” Nature 2021.
4)https://alphafold.ebi.ac.uk/
岡野原 大輔(おかのはら・だいすけ)
Preferred Networks 代表取締役 最高執行責任者
岡野原 大輔(おかのはら・だいすけ) 2006年にPreferred Infrastructureを共同創業。2010年、東京大学大学院博士課程修了。博士(情報理工学)。未踏ソフト創造事業スーパークリエータ認定。東京大学総長賞。