世界を動かす技術を、日本語で。

バイオムニ:汎用生物医学AIエージェント

概要

  • Biomni は多様な生物医学分野に対応した汎用AIエージェント
  • LLM推論・検索拡張型プランニング・コード実行機能による研究支援
  • 環境構築は setup.sh スクリプトで一括設定
  • コミュニティ貢献 を積極的に募集、次世代環境Biomni-E2も開発中
  • Webインターフェースやチュートリアルも順次公開予定

Biomni:汎用生物医学AIエージェント概要

  • Biomni は生物医学分野の幅広い研究タスクを自律的に実行可能なAIエージェント
  • 最先端LLM推論 ・検索拡張型プランニング・コードベース実行の統合
  • 科学者の研究生産性向上と実験仮説の創出支援
  • 多様な生物医学サブフィールド対応

クイックスタート・インストール手順

  • 環境構築は setup.sh スクリプトで一括実行
  • 環境有効化:conda activate biomni_e1
  • 最新Biomniパッケージのインストール:pip install biomni --upgrade
  • GitHubソースからのインストールも可能
  • APIキー の設定(~/.bashrc等で下記エクスポート)
    • export ANTHROPIC_API_KEY="YOUR_API_KEY"
    • export OPENAI_API_KEY="YOUR_API_KEY"(Claudeのみ利用時は省略可)

基本的な使い方

  • 環境内でPythonからBiomniエージェントを利用
  • 初回実行時にデータレイク自動ダウンロード(約11GB)
  • エージェント初期化例:
    • from biomni.agent import A1
    • agent = A1(path='./data', llm='claude-sonnet-4-20250514')
  • 自然言語で生物医学タスクを実行
    • 例:「CRISPRスクリーニング計画」「scRNA-seqアノテーション」「化合物ADMET予測」など

コミュニティ貢献の募集

  • Biomniはオープンサイエンスイニシアティブ
  • 貢献歓迎項目
    • 新規ツール・解析アルゴリズム
    • 生物医学データセット・知識ベース
    • 既存ソフトウェアパッケージの統合
    • ベンチマーク・評価指標
    • チュートリアル・事例集
    • 既存ツールの最適化・修正
  • Contributing Guide 参照で詳細確認
  • ツールやデータベース追加提案も専用フォームで受付

Biomni-E2開発と貢献者募集

  • Biomni-E1は生物医学AIの可能性の一端のみを実現
  • Biomni-E2 はコミュニティ主導で次世代環境を構築中
  • 標準生物医学アクションの共有ライブラリ策定が目標
  • 10件以上の重要ツール貢献者は論文共著に招待
  • すべての貢献者を出版物で謝辞表記
  • コミュニティでの共同開発推進

チュートリアル・事例紹介

  • Biomni 101 :基本概念・初歩的な使い方ガイド
  • 今後もチュートリアル・事例を順次公開予定

Webインターフェース

  • biomni.stanford.edu でノーコードWebインターフェースを提供
  • 誰でも簡単にBiomniを体験可能

リリース・スケジュール

  • 8種の実研究タスクベンチマーク・リーダーボード公開
  • Biomni貢献方法チュートリアル
  • ベースラインエージェント利用ガイド
  • Biomni A1+E1リリース

注意事項

  • 本リリースは 2025年4月15日時点でフリーズ されたバージョン
  • Biomni本体は Apache 2.0ライセンス、一部統合ツールやデータベースは商用利用制限あり
  • 商用利用前に各コンポーネントのライセンス確認が必要

論文引用情報

  • @article{huang2025biomni, title={Biomni: A General-Purpose Biomedical AI Agent}, author={Huang, Kexin and Zhang, Serena and Wang, Hanchen and Qu, Yuanhao and Lu, Yingzhou and Roohani, Yusuf and Li, Ryan and Qiu, Lin and Zhang, Junze and Di, Yin and others}, journal={bioRxiv}, pages={2025--05}, year={2025}, publisher={Cold Spring Harbor Laboratory}

Hackerたちの意見

すごい!AIに関して一番ワクワクするのは、医療研究やその能力の向上だよね。AIは人間が見逃すデータのパターンを見つけるのが得意だから、まだまだたくさんのパターンが埋もれてるデータがあるはず。もちろん、新しい薬や治療法を開発する可能性もあって、これもめっちゃ興奮するよ。

同意します。ヘルスケアにおける機械学習の可能性は深いです。この分野で研究を進める貢献者がもっと必要です。人々が周りを見渡す中での一つの機会として、多くの先行研究が再考に値します。たとえば、一見同じに見えるゲノムデータが実際には同じでないこともあります。クラシックな生物学的表現(FASTA)では、標準的なシトシンとメチル化シトシンが両方とも「C」という文字にまとめられていますが、違いが遺伝子発現の差を引き起こすこともあります。ゲノムモデルに最適なトークン化アルゴリズムやアーキテクチャは何でしょうか?タンパク質結合予測はどうですか?不明です!バイオメディカルMLにはまだまだ多くの未解決の質問があります。オープンさとインパクトの比率は、バイオメディスンでも他の分野と同じくらい高いと言えるでしょう。これらの質問に答える手助けをすれば、命を救うことができるかもしれません。こういう素晴らしいフレームワークが障壁を下げて、もっと多くの人を引きつけてくれるといいですね。

いいね!クリスパーの研究所で働いてる友達に教えたよ。

これはいいね。AIを使った科学研究にはたくさんの可能性がある。科学研究をサポートするためのインテリジェントな作業空間を構築する可能性もあるよね。

これについては考えてるだろうけど、生物的脅威をサポートする評価ではどうだったのか気になるな。つまり、生物兵器を作るための脅威アクターの能力を高めることについて。個人的には、現在のLLMがこれをできるとは思えないけど(Claudeがテストしてるから)、それでも興味深いね。

生物兵器を作るには、特有の専門的なスキルや設備、安全対策(自分や周りの人を感染させたり、殺したりしないため)などが必要です。たとえば、オウム真理教の亀戸事件を考えてみてください。[1] 同じグループがサリン攻撃を行ったんです。[2] > 「弱毒化されたB. anthracis株、低濃度の胞子、効果的でない散布、詰まったスプレーデバイス、そして日光による胞子の不活化は、すべて人間の感染例がない要因として考えられます。」さて、あなたは「それはバクテリアだ、ウイルスはどうなの?」と言うかもしれませんが、同じような問題が出てきます。ウイルスを高濃度でうまく育てるにはどうすればいいのでしょうか?ワクチン会社ですら、特定のウイルスでこれに苦労しています。それから、散布、感染力、致死率の問題が出てきます(早すぎると宿主を殺してしまい、広がらないので当局に気づかれる。遅すぎると同じ問題:当局に気づかれる)。生物工学についても触れていませんが、これは技術的な知識とラボ経験が何年も必要で、さらに扱う生物についての深い知識が求められます。一番心配なのは、自然が新しいインフルエンザ亜型を生み出すことです。特に発展途上国の農業慣行が新しい亜型を生む可能性が高いです。2009年に起こったこと(H1N1pdm)を考えると、また起こるでしょう。H1N1pdmには運が良かったです。1. https://pmc.ncbi.nlm.nih.gov/articles/PMC3322761/ 2. https://en.wikipedia.org/wiki/Tokyo_subway_sarin_attack

面白いね。これはエージェントループで、標準としてPython実行とウェブ検索にアクセスできるんだけど、150個の事前作成されたツールがあって、特定のパラメータでハードコーディングされたPython関数を実行するんだ。ツールの基準に合った簡単に読み込めるデータベースもあるしね。主張としては、Claudeにニッチなバイオメディカルタスクを頼むと、PubMedを検索して即座にRAGを行うだけでは知識が足りないってこと。現在のLLMの世代を考えると、確かにそうだと思う。興味深いアプローチで、論文では一般化が示されてるけど(よく知られた整然としたデータセットで)、実際のデータはもっとごちゃごちゃしてる。ここでのアプローチ(間違ってたら教えて)は、タスクに合ったツールを特定して、必要に応じてデータを受け入れ可能な形式に整えるために一般的なPython実行ツールを使うってこと。ツールを試してみて、またやり直す感じだね。ツールを一般的なコードエージェントに情報を与えるガイダンスとして使うのは有用だと思うけど、「確認済み」のハードコーディングされたツールを実行することでエラーの範囲が狭まる。データが正しく整形されていれば、分析は正確になるはず。長期的に見て、独自のデータセットでどれだけの利点があるかは分からないけど、面白い方向性だね。

これは素晴らしい!彼らのウェブサイトの待機リストにしばらく入ってたから、試せるのが楽しみ!

150以上のツールを提供するのは、コンテキストの制限を考えると本当に良いアイデアなのかな?実際に機能するかチェックしないとね。

内部にToolRetrieverがあって、最も関連性の高いツールやデータ、ライブラリを選ぶためのLLMコールがあるよ。

とても興味深いプロジェクトですね!もしバイオメディカルリサーチや論文分析に興味があるなら、医療文献に対してRAGを可能にするオープンソースプロジェクトをしばらく前から進めてるんです。PaperAI: https://github.com/neuml/paperai PaperETL: https://github.com/neuml/paperetl それに、論文をインラインで注釈するツールもありますよ。AnnotateAI: https://github.com/neuml/annotateai

これ、すごくクールだけど、やっぱり大きな疑問はそれが機能するかどうか、そしてプロにとって役に立つかどうかだと思う。これについてコメントできる人はいるのかな?

確かに大きな疑問だけど、これが一番の疑問だとは思わない。これは100%進歩だし、単独でもクールだよ。

誰か余ってる招待状持ってない?