ディープラーニングが注目される一方で、ディープファクトチェックは無視される

2025年6月4日原文(rachel.fast.ai)

概要

Deep learning による酵素機能予測研究の 華やかさ と、その裏での検証作業の評価の低さ
Transformerモデルを用いた論文が Nature に掲載され、非常に高い注目を集めた事例
その後、重大なエラーを指摘した bioRxiv の論文は注目度が低い現実
AIの生物学応用における 専門知識の重要性 と、現行出版インセンティブの問題点
機械学習結果の 正当性評価の難しさ と、今後の課題

AIによる酵素機能予測と出版インセンティブの歪み

Deep learning は華やかで高く評価される分野
Transformerモデルを用いて 2,200万件の酵素データ で訓練・評価し、 450種の未知酵素の機能予測 を実施
結果は Nature 誌に掲載、 Altmetric上位5% の注目度を記録
他者の研究の誤りを検証し指摘した論文は bioRxiv に投稿されるも、ほとんど注目されず
AI研究の成果発表と 地道な検証作業 との評価格差

酵素機能決定の難しさ

酵素は生命活動に不可欠な触媒であり、機能分類には Enzyme Commission (EC)番号 が利用される
アミノ酸配列 からEC番号（機能）を予測することは機械学習に適した課題
UniProt などに2,200万件以上の酵素データが蓄積
Transformerモデルは BERT由来の構造 （2層エンコーダ、2層CNN、線形層）を採用
モデルは未知酵素に対し約450件の新規機能を予測し、うち3件を in vitro で検証

重大な予測エラーの発覚

Nature論文 のTransformerモデルは 多数の誤った予測 を生成
テストセット上では高精度だが、 データリーク の疑いも指摘
未知酵素の予測結果の多くが 既知データの再発見 や 生物学的に不合理な繰り返し、 誤ったパラログ であった
例：E. coliの YjhQ がmycothiol合成酵素と予測されるが、E. coliはmycothiolを合成しない
135件 は既知、 148件 は不自然な繰り返し、他にも文献や生物学的知見と矛盾する例多数

専門家による誤りの発見

in vitro検証対象となった yciO は、Dr. de Crécy-Lagardによって10年以上前から研究されていた
yciOとTsaCは進化的に関連するが、 機能は異なる ことが既に証明済み
yciOはTsaCの機能を補完できず、活性もTsaCの1万分の1以下
構造類似性だけでなく、 遺伝子周辺情報、基質ドッキング、経路内共存関係 など複数の証拠が必要

機械学習モデルの限界と真の未知

酵素機能予測には
- 既知ラベルの伝播
- 本当に未知の機能の発見 という異なる課題が混在
教師あり学習モデル は本質的に「真の未知」には対応できない
ラベル伝播の失敗や誤伝播、データベース側の誤り、実験ミスなど多様なエラー
誤った機能情報 が主要データベースに蓄積・伝播するリスク

データワークの重要性と評価の不均衡

AIモデル構築よりも データ検証 や専門知識の統合が評価されにくい現状
“Everyone Wants to do the Model Work, not the Data Work”論文でも ドメイン知識不足 がAI失敗の主因と指摘
多くのAI論文で 専門家による綿密な検証 が行われていない現実
地道な検証作業こそが科学の進歩には不可欠
派手なAI研究偏重 のインセンティブ構造を是正し、 多角的な研究投資 の必要性を強調

まとめと今後への提言

AIの生物学応用には 深い専門知識 と 多面的な検証 が不可欠
出版・評価システム の見直しと、地道な検証研究へのインセンティブ強化
誤ったデータの伝播防止と、 質の高い科学的成果 の担保
研究資金配分の見直しと、 多様な研究アプローチ の価値再評価

Hackerたちの意見

AIに研究をさせる前に、まずは研究を「再現」させるべきじゃないかな。例えば、深層学習の技術に関する論文を与えて、その実装を作らせるとか。そこができるようになるまでは、新しいアイデアを生み出せるとは思えないよ。

└

賛成！これは面白いアイデアなだけじゃなくて、再現性をチェックする問題を解決するのにも役立つかもしれないね。でも、それでも人間の評価者がAIが再現した研究を細かくチェックする必要があると思う。実際的には、現在のLLMには研究において役割があると思う。一つはピアレビューのプロセスで、LLMは科学者が使うデータ処理コードの評価を手伝える。もう一つはブレインストーミングや文献レビューの初期段階での利用だね。

└

「AIに論文の最初の部分（プロンプト）を与えて、残りを完成させる」って言うと思ったんだけど、AIが研究結果と同等の科学を生み出せるっていう検証だよね。それができる前に、新しいアイデアを生み出すことは期待できないな。

└

LLMのためには非常に完全な監査トレイルが必要で、論文がデータセットのどこにも表示されないことを確認しなきゃいけない。学術的な詐欺の問題は稀だけど、全くないわけじゃないからね。LLMはデータを偽造して、すぐに嘘をつくことがある。

「私が読んだほとんどの深層学習の論文では、専門家が結果を細かくチェックして出力の質を確認していない。どれだけの他の一見印象的な論文が精査に耐えられないだろう？」これって本当にそうじゃないの？自分の分野のAI論文をいくつか読んだし、他の専門家も読んでると思う。ただ、コンピュータサイエンスやソフトウェア関連の研究は生物学よりもチェックしやすいと思う（もしかしたら自分が生物学に詳しくないからかもしれないけど）。

└

生物学的ラベルの検証には簡単に何年もかかるよ。OPの例では、予測されたタンパク質のラベルに誰かがすでに何年もかけてた「ラッキー」（大きな！）な偶然だった。誰もランダムなモデルの予測を検証するために3〜5年のキャリアを賭けることはないよ。

└

言語学についての印象だけど、こういう技術を使った論文はみんな慎重に見て批判してるけど、言語学者はあまり真剣に受け取られないから、他の関連分野の人たちはその批判を無視しちゃうんだよね。

レイチェル・トーマスの記事、めっちゃ良かった！これは基本的に、深層学習が「生成的」な情報検索としてしか機能しないっていう別の主張だよね。つまり、訓練データが基盤となるドメインの非常にロスの多い表現だから。遺伝子のデータやラベルが生物学という基盤を完璧に表しているわけじゃないから、出力が間違っていたり無効だったり意味不明になることがある。うまくいく場合はデータ漏洩があるし、LLMは情報検索ツールとして設計されているからね。情報理論の観点から見ると、どんなモデルにも根本的な「未知の未知」がある。自分の考えとしては、アルゴリズムのせいじゃなくて、訓練データセットのせいだと思う。私たち人間は自然言語の領域で流動的に動けるし、子供でもテキストが意味を成すかどうかを読んで評価できる。これがNLPで訓練されたモデルの成功を説明してる。でも、訓練データが根本的なドメインをロスを伴って表している場合、完璧にはならないよね。

AIに必要なのは「現実チェック」サブシステムだね。LLMは、あなたの心の中の幻想的な部分が常にフレーズ（アイデア）をつぶやいているようなもので、私たちの脳内のつぶやきが無限に間違った発言をしないようにするのは、「私の発言は反証可能なものを描写しているか？」と「反証可能性は検出できるか？」っていうチェックなんだ。部屋の中を見回して教会にいる人たちを見て、ああ、再評価すると、これは全員に当てはまるわけじゃないな…。

└

まったく同感だわ。数ヶ月前のあるランダムな夜、半分寝てて半分起きてる状態になったんだけど、その時、自分の脳が常に意味不明なフレーズをつぶやいてるのに気づいたんだ。フィルターを通る前の思考を聞いてるみたいだった。何百もの言葉や思考、意味が同時に生成されてるのが見える感じで、時間とともに少しずつ進化していくのを見て、脳がそれを一つの文にまとめていくのがわかった。これが毎秒繰り返されて、めちゃくちゃ速いけど「十分に遅い」から実際に起こってるのが見えるんだ。これはただの私の半分寝てる幻覚だから、あまり真剣に受け取らないでほしいけど（〜何も）、似たようなアルゴリズムが必要だっていう気持ちは消えない。もし博士号を追求することになったら、これを試してみるつもり。

└

人間の「現実チェック」システムは、生成的敵対ネットワークの識別器に似てるけど、感情に強く影響されてるんだ。心理学的には、どれだけ「感情的」かに関わらず、真実や虚偽の感覚はまず感情回路を通るって言われてる。それは根底にある信念に基づいてるんだよ。誰かが自分が強く反対することを言ったら、最初の内面的な反応は感情的になる。それから思考がそこから拾い上げるんだ。

科学の世界にもフェイクニュースが浸透してきてる感じだね。バカなことを言う方が、反論するよりもずっと多くのビューや「いいね」を集める。Twitterとネイチャーのジャーナルを比べることはできないけど。科学は、評判の良いジャーナルやピアレビューのおかげで、こういうバカげたことに免疫があるはずなんだ。出版前に害を及ぼす前にブロックするべきなのに。これはネイチャーの失敗だったの？

Hacker Newsで議論の続きを見る

ハクソク