世界を動かす技術を、日本語で。

SimpleFold: タンパク質の折りたたみは思っているよりも簡単です

概要

  • SimpleFold は、汎用Transformer層のみで動作する新しいタンパク質折り畳みモデル
  • 複雑なドメイン固有設計や高価なモジュールを排除し、 flow-matching生成的学習目標 で訓練
  • 最大 30億パラメータ 規模で、860万以上のタンパク質構造データで訓練
  • 既存の最先端手法と競合する精度、アンサンブル予測でも高性能を実現
  • シンプルな設計が今後のタンパク質構造予測の新たな方向性を示唆

SimpleFold: タンパク質折り畳みは思ったよりシンプル

  • SimpleFold は、flow-matchingベースのタンパク質折り畳みモデル
  • 汎用 Transformer層 のみを使用、triangle attentionやpair representation biasなどの高コストな専用モジュールを不使用
  • 生成的flow-matching目的 で訓練、従来手法とは異なるアプローチ
  • 最大 3B(30億)パラメータ モデルを構築、860万件超の精製構造+PDB実験データで訓練
  • これまでで最大規模のタンパク質折り畳みモデル
  • 標準ベンチマークで既存の最先端モデルに匹敵する精度
  • 生成的訓練により、 アンサンブル予測 でも高い性能
  • 複雑なドメイン固有アーキテクチャへの依存を打破、新たな研究方向性を提案

インストール手順

  • GitHubリポジトリ からのインストール手順
    • リポジトリをクローン:
      • git clone https://github.com/apple/ml-simplefold.git
      • cd ml-simplefold
      • python -m pip install -U pip build; pip install -e .
      • pip install git+https://github.com/facebookresearch/esm.git(MLXバックエンド用、任意)

予測・推論の実行方法

  • Jupyter Notebook (sample.ipynb)でサンプル実装を提供
  • コマンドラインでFASTAファイルから構造予測
    • 例:
      • simplefold --simplefold_model simplefold_100M --num_steps 500 --tau 0.01 --nsample_per_protein 1 --plddt --fasta_path [FASTA_PATH] --output_dir [OUTPUT_DIR] --backend [mlx, torch]
    • モデルサイズ(100M/360M/700M/1.1B/1.6B/3B)指定
    • MLX(Apple向け)・PyTorchバックエンド両対応

評価・ベンチマーク

  • 予測構造データ (各種モデルサイズ別)を提供
    • CAMEO22, CASP14, Apo, Fold-switch(CoDNaS)用
  • OpenStructure 2.9.1 のDockerイメージを利用し評価
    • 例:
      • python src/simplefold/evaluation/analyze_folding.py --data_dir [PATH_TO_TARGET_MMCIF] --sample_dir [PATH_TO_PREDICTED_MMCIF] --out_dir [PATH_TO_OUTPUT] --max-workers [NUMBER_OF_WORKERS]
  • 二状態予測 (Apo/CoDNaS)はTMscoreバイナリを使用
    • 例:
      • python src/simplefold/evaluation/analyze_two_state.py --data_dir [PATH_TO_TARGET_DATA_DIRECTORY] --sample_dir [PATH_TO_PREDICTED_PDB] --tm_bin [PATH_TO_TMscore_BINARY] --task apo --nsample 5

学習・ファインチューニング

  • SimpleFold は独自またはカスタムデータセットで学習可能
  • 学習用データ
    • PDBの実験構造、AFDB SwissProt、AFESMの精製予測を使用
    • 各種ターゲットリスト(csv/json形式)を提供
      • 例:swissprot_list.csv(約27万件)、afesm_list.csv(約190万件)、afesme_dict.json(約860万件)
    • afesme_dict.jsonはクラスタIDごとにメンバーIDを持つ構造
  • mmcif構造処理
    • Redisサーバーを利用してmmcifファイルを前処理
      • wget https://boltz1.s3.us-east-2.amazonaws.com/ccd.rdb
      • redis-server --dbfilename ccd.rdb --port 7777
      • python src/simplefold/process_mmcif.py --data_dir [MMCIF_DIR] --out_dir [OUTPUT_DIR] --use-assembly
  • 学習実行
    • Hydraベースの設定ファイルを利用
      • python train experiment=train
      • FSDP戦略:python train_fsdp.py experiment=train_fsdp

論文引用・ライセンス

  • 論文引用:
    • Wang, Yuyang et al., "SimpleFold: Folding Proteins is Simpler than You Think", arXiv preprint arXiv:2509.18480, 2025
  • コード・モデルのライセンス はリポジトリのLICENSEおよびLICENSE_MODELを参照
  • 謝辞・利用OSSはACKNOWLEDGEMENTSに記載

参考リンク

  • arXiv論文: https://arxiv.org/abs/2509.18480
  • GitHubリポジトリ: https://github.com/apple/ml-simplefold

Hackerたちの意見

なんでAppleがタンパク質の折りたたみをやってるの?

Siriがうまくいかなかったからじゃない?

評判を洗浄してるの?

ノーベル賞を取ってないのが嫉妬してるんだろうね。

ローカル推論について。彼らは、デスクトップマシンで素早く推論できるように、これや他の最先端モデルを小型化することに興味があるんじゃないかな。記事では、図1EでM2 Max 64GB上での推論が示されてる。正直、これは素晴らしいアイデアだと思う。もし小さな製薬会社なら、迅速なローカル推論ができることで多くの障壁やガードが取り除かれるよね。生成されたシーケンスに対して、ラボのフィードバックを使ってベイズ最適化や強化学習もできるし。対照的に、AlphaFoldを動かすにはかなりのリソースが必要だし、彼らの複数アライメントの使い方はちょっとハッキーで、近いホモログがないタンパク質ではパフォーマンスが悪くなるし、前処理も大量に必要だよね。数年前、MetaのESMがアライメントフリーのアプローチが可能で、うまく機能することを示してたし。AlphaFoldには特別なソースはなくて、ただのseq2seq問題だし、注意を使わないSSMも含めて、いろんなアプローチがうまくいくよ。

グリーンウォッシングの反対って何て呼ぶの?モデルのトレーニングに他と同じくらいエネルギーを使ってることを示したいとき。

わからないけど、収益を生むものを必ずしも作らないR&Dの仕事に応募できる?もしかしたら、彼らがAIチップをテストして磨くためのプロジェクトなのかも?よくわからないけど。

多分、ByteDanceとFacebook(EvolutionaryScaleに分社化された)がやってるからだね。

AppleにはML研究グループがあるよ。明らかにAppleらしいことや、他のアプリケーション、一般的に役立つ最適化、基本的な研究をやってるんだ。 https://machinelearning.apple.com/

これは今回の実際の理由ではないかもしれないけど、知っておくといいと思うことがあるよ。「科学のためのAI」研究の中には、テック企業で行われているものの中で、基本的にマーケティングのためにやってるものもあるんだ。企業の製品に直接的に利益がない場合や、実際に何か重要なものにつながる可能性が低い場合でも、「名声」のためには良いことなんだよね。

記事の裏にあるGitHubリポジトリのリンクだよ。 https://arxiv.org/abs/2509.18480

要約だけでもこう言ってるね(合ってればだけど)、「AIは必要だけど、他の人たちがやってるほどには必要じゃない。」

GitHubのリンクに興味がある人へ。 https://github.com/apple/ml-simplefold

タンパク質の折りたたみについて最初に聞いたのは、Folding @Homeプロジェクトの時だったな(https://foldingathome.org)。その頃はメディアサーバーが余ってて、大学の寮ではエネルギーが安かった(無料だった)。詳しくはないけど、今のハードウェアでタンパク質の折りたたみを簡単にするために進歩したのかな?それとも特定の問題にしか適用できないの?Folding @Homeプロジェクトはまだ続いてるみたいだね!

Team F@H 永遠に!

うん、それとSETI@Homeもね。意味が完全にはわからなくても、あのビジュアルが好きだった。

私の理解では、Folding@homeは物理ベースのシミュレーションソルバーだったけど、AlphaFoldやその子孫(これを含む)は統計的手法なんだ。統計的手法は計算コストがすごく安いけど、既存のタンパク質の折りたたみに依存していて、トレーニングセットに似ていないタンパク質については強い予測を生成できないんだ。つまり、スピードのために多様性を犠牲にする別のアプローチなんだけど、そのトレードオフはかなり大きくて、興味のあるタンパク質の折りたたみを生成するのが現実的になるんだ。ほとんどのプロジェクトにとって計算的に不可能だったものが、普通のワークフローの一部としてどんなタンパク質でもできるようになるんだよ。

僕もそこでたくさん貢献したよ。冬には3080Ti-FEを小さなヒーターとして使ってたし。

彼らはまだ続けていて、これまでに素晴らしい発見をしてきたよ。

F@Hのブログ記事によると、最終的な折りたたみ形状に加えて、どのように折りたたまれたかのダイナミクスを知ることもまだ役立つみたい。MLで折りたたまれたタンパク質は、シミュレーションの検証やタンパク質の働きを理解するための豊富なターゲットになるんだって。

タンパク質の画像が何を示してるのか気になったんだけど、「図1はSimpleFoldのターゲットに対する予測例…実際の値は薄いアクア、予測は濃いティールで示されてる。」って書いてあって、なんで「薄いアクア」と「濃いティール」が良い選択だと思ったのか、さらに気になってきた。

そうそう、図a)はタンパク質7QSWの折りたたみのリボン表現(ヘリックスとストランド)を示してるよ(https://www.ebi.ac.uk/pdbe/entry/pdb/7qsw)。これはRubisCO(https://en.wikipedia.org/wiki/RuBisCO)っていう植物タンパク質で、光合成に重要な役割を果たしてるんだ。異なる色は予測モデルと「実際の」(グラウンドトゥルース)モデルのためのもの。見分けがつきにくいのは、君が指摘したように変な色の選び方もあるけど、そもそも近くにあるからだよね。不正確な予測だと、3D空間でうまくアラインしない部分がもっと目立つはずだよ。

このアプローチがタンパク質折りたたみ研究に与える影響について、専門家の意見を聞いてみたいな。面白そうだけど、具体的に何が影響するのかは全然わからない。

彼らの表現はシンプルで、ただのトランスフォーマーなんだ。それって、トランスフォーマー用に特別に開発された理論やツールをそのまま使えるってこと。特に、モデルをスケールしやすくなるのが大きいよね。でもそれ以上に、AlphaFoldには特別な魔法はなかったってことを示してると思う。アーキテクチャやトレーニング方法の詳細はあまり重要じゃなかったんだ。必要だったのは、大きなモデルを大規模なデータセットでトレーニングすることだけ。実際、AlphaFoldを試した多くの人が、LLM(大規模言語モデル)に似た振る舞いをすることを発見してる。つまり、トレーニングデータセットに近い入力にはうまくいくけど、一般化は全然できないんだよね。

未来のモデルに変化があるかもしれないね。ある人の意見を紹介するよ: https://genomely.substack.com/p/simplefold-and-the-future-of... でも、研究に関しては、実際の影響がわかるまでには数ヶ月や数年かかるからね。未来の方向性の予測は限界があるよ!

「私たちのアプローチは最先端よりもシンプルです」と言ってる論文。でも、「私たちのアプローチはすべての指標で最先端に大きく遅れています」とは大声では言わない。出版するのは簡単じゃないけど、大企業の名前をつけてプレプリントとして出せば助けになるかな…

完全に新しいわけじゃないけど、タンパク質の折りたたみモデルがどんどんシンプルになっていくのを見るのはすごく面白いよね。AF2からAF3への進化はモデルの構造の複雑さを減らしたし、これはその苦い教訓に向かうもう一歩だね。

AF3のパフォーマンスがAF2のデータでトレーニングされていなかったらどうなるかは、ちょっと疑問だな。AF2自体が同変性みたいな多くの帰納的バイアスを組み込んでるから。

見落としがちな注意点が一つあるんだけど、「シンプルな」モデルは生の実験構造から折りたたみを学んだわけじゃないんだ。ほとんどのトレーニングデータはAlphaFoldスタイルの予測から来てる。何百万ものタンパク質構造が、大規模なMSAベースの高度にエンジニアリングされたモデルによって生成されたものなんだ。だから、すべての帰納的バイアスやMSAの仕組みを捨てることはできないし、上流の誰かがそれらのモデルを構築して実行して、トレーニングコーパスを作る必要があったんだよ。

それに、AlphaFoldはX線を使って折りたたまれたタンパク質の実験観察で検証されたんだよね。

これってそんなに珍しいこと?シンプルなものは、昔は複雑だと考えられていたことがほとんどだよね。エマージェンスのことを考えると、まずは複雑さを経て、一般化されたシンプルな定式にたどり着く必要があるんだ。自然界のものが比較的シンプルなルールに基づいて動いているのは明らかだけど、まるで「ライフゲーム」を見て、そのルールや初期条件を逆に解明しようとしているようなもの。そんなタスクが簡単だって言ってる人は、自分に酔ってるだけだよ。でも、P=NPを真剣に信じてる人なんているの?

僕が感じるのは、シンプルさとスケーリングの挙動だね。MLの分野では、より高いスコアを得るためにモジュールの複雑さが増すことがよくあるけど、その後にシンプルなモデルが最も複雑なものと同等のパフォーマンスを発揮するブレイクスルーがあるんだ。そんな「シンプル」なアーキテクチャがこれだけうまく機能するってことは、また複雑さを戻してさらに進む可能性があるってことだよね。今、MSAを戻せるかな?それがどこに導いてくれるんだろう?僕のざっくりとした理解では、「粗い」生成モデルがいくつかの妥当な推測をして、より正式な「検証者」がそれが物理法則や幾何学に従っているかを確認する感じ。AIは、計り知れないほど大きな探索空間を縮小して、高価なシミュレーションが無駄な作業をしなくて済むようにしてるんだ。もし推測ネットワークが改善されれば、全体のプロセスが速くなる。- レッドカラントネットワークの複雑な転送関数を思い出してる。- スキップフォワードレイヤーの前の深い前処理チェーン。- Reluの前の複雑な正規化目標。- 拡散の前の複雑なマルチオブジェクティブGANネットワーク。- フルコンボリューションネットワークの前の複雑なマルチパスモデル。だから、基本的にこれにはすごくワクワクしてる。これ自体が最適なアーキテクチャだからじゃなくて、むしろそうじゃないからこそ!

AlphaFoldがリリースされてから気になるんだけど、この分野の古典的な分子動力学シミュレーションは、少なくともタンパク質の折りたたみに関しては時代遅れになったのかな?DESRESのような場所から出てくる研究はどう比較されるの?同じ分野でより具体的な問題に取り組んでるのか、それとも全く別のビジネスをしてるの?

いいえ。AlphaFoldはダイナミクスを扱ってないよ。エンドステートのスナップショットだけを出すんだ。原子の動きについては何もやらない、それがMDの核心的な機能だから。

何がリリースされたのか気になって調べてみたんだけど、AlphaFold V3のパラメータは特定のグループにだけ非商用利用のために提供されてるみたい。 ただ、AlphaFold V2のパラメータは誰でもダウンロードできるみたいだよ。

MD(分子動力学)は構造予測にはあんまり向いてなかったから、AlphaFoldが出ても廃れなかったんだよね。むしろ、MDはタンパク質の折りたたみの物理プロセスを研究するのに役立つ。タンパク質が最終的な構造に折りたたまれる前や、折りたたまれた後にちょっと動く様子を観察するのにね。

知的には、このアプローチは好きじゃないな。タンパク質の配列から直接最終結果を予測するのは、新しい現象を見逃しちゃう可能性があるし、トレーニングデータセットをただ再利用するだけになっちゃう。もっと基本的な原理に基づいたアプローチの方がいいと思う。理論的には折りたたみは簡単で、タンパク質を水分子に囲まれた状態でナノ秒単位でシミュレーションすればいいだけなんだ。ただ、実際にはこれが時間がかかる。システムを進化させるには、原子の位置に基づいてエネルギーを計算しなきゃいけないから、これは量子力学を含む複雑な問題なんだよね。主に電子の挙動が関係してるけど、電子は軽いから速いタイムスケールで動く。通常は電子自体は気にしないけど、原子に与える影響だけを考える。昔は、原子のペアが無限に離れているときは様々なレナード・ジョーンズポテンシャルを使って、結合しているときは別のポテンシャルを使ってたから、すぐに複雑になっちゃった。でも今は、ニューラルネットワークを使ってシステムのエネルギーを計算する深層学習ベースのアプローチがあるんだ。(Gromacsのニューラルネットワークポテンシャルを参照)これで、ab-initio理論から生成された軌道に基づいて原子間の局所的な相互作用を学習するようにネットワークをトレーニングする。これにより、より複雑な物理を近似する速いシミュレーターが得られるんだ。要するに、選んだ理論に基づいて特定の原子配置における電子の影響をニューラルネットワークで表にまとめてる感じ。もし疑問があれば、いつでも遅いシミュレーターを使って小さな局所の近傍で確認できる。そうやって折りたたむことができるシミュレーターができたら、「タンパク質の配列」と「軌道の終わり」のペアのデータセットを生成して、Alpha/Simple/Foldのようなショートカットを学習することができる。疑問があれば、遅いけど精度の高い方法に戻ればいいんだ。十分なデータがあって、十分な表現力を持つモデルを完璧にトレーニングできれば、初期の配置から最終的な配置の対応だけで正しい物理を推測できる理論もあるけど、データが足りないとショートカットを学習してしまって、時々間違った結果を受け入れることになる。