世界を動かす技術を、日本語で。

ディープラーニングが注目される一方で、ディープファクトチェックは無視される

概要

  • Deep learning による酵素機能予測研究の 華やかさ と、その裏での検証作業の評価の低さ
  • Transformerモデルを用いた論文が Nature に掲載され、非常に高い注目を集めた事例
  • その後、重大なエラーを指摘した bioRxiv の論文は注目度が低い現実
  • AIの生物学応用における 専門知識の重要性 と、現行出版インセンティブの問題点
  • 機械学習結果の 正当性評価の難しさ と、今後の課題

AIによる酵素機能予測と出版インセンティブの歪み

  • Deep learning は華やかで高く評価される分野
  • Transformerモデルを用いて 2,200万件の酵素データ で訓練・評価し、 450種の未知酵素の機能予測 を実施
  • 結果は Nature 誌に掲載、 Altmetric上位5% の注目度を記録
  • 他者の研究の誤りを検証し指摘した論文は bioRxiv に投稿されるも、ほとんど注目されず
  • AI研究の成果発表と 地道な検証作業 との評価格差

酵素機能決定の難しさ

  • 酵素は生命活動に不可欠な 触媒 であり、機能分類には Enzyme Commission (EC)番号 が利用される
  • アミノ酸配列 からEC番号(機能)を予測することは機械学習に適した課題
  • UniProt などに2,200万件以上の酵素データが蓄積
  • Transformerモデルは BERT由来の構造 (2層エンコーダ、2層CNN、線形層)を採用
  • モデルは未知酵素に対し約450件の新規機能を予測し、うち3件を in vitro で検証

重大な予測エラーの発覚

  • Nature論文 のTransformerモデルは 多数の誤った予測 を生成
  • テストセット上では高精度だが、 データリーク の疑いも指摘
  • 未知酵素の予測結果の多くが 既知データの再発見生物学的に不合理な繰り返し誤ったパラログ であった
  • 例:E. coliの YjhQ がmycothiol合成酵素と予測されるが、E. coliはmycothiolを合成しない
  • 135件 は既知、 148件 は不自然な繰り返し、他にも文献や生物学的知見と矛盾する例多数

専門家による誤りの発見

  • in vitro検証対象となった yciO は、Dr. de Crécy-Lagardによって10年以上前から研究されていた
  • yciOとTsaCは進化的に関連するが、 機能は異なる ことが既に証明済み
  • yciOはTsaCの機能を補完できず、活性もTsaCの1万分の1以下
  • 構造類似性だけでなく、 遺伝子周辺情報、基質ドッキング、経路内共存関係 など複数の証拠が必要

機械学習モデルの限界と真の未知

  • 酵素機能予測には
    • 既知ラベルの伝播
    • 本当に未知の機能の発見 という異なる課題が混在
  • 教師あり学習モデル は本質的に「真の未知」には対応できない
  • ラベル伝播の失敗や誤伝播、データベース側の誤り、実験ミスなど多様なエラー
  • 誤った機能情報 が主要データベースに蓄積・伝播するリスク

データワークの重要性と評価の不均衡

  • AIモデル構築よりも データ検証 や専門知識の統合が評価されにくい現状
  • “Everyone Wants to do the Model Work, not the Data Work”論文でも ドメイン知識不足 がAI失敗の主因と指摘
  • 多くのAI論文で 専門家による綿密な検証 が行われていない現実
  • 地道な検証作業こそが科学の進歩には不可欠
  • 派手なAI研究偏重 のインセンティブ構造を是正し、 多角的な研究投資 の必要性を強調

まとめと今後への提言

  • AIの生物学応用には 深い専門知識多面的な検証 が不可欠
  • 出版・評価システム の見直しと、地道な検証研究へのインセンティブ強化
  • 誤ったデータの伝播防止と、 質の高い科学的成果 の担保
  • 研究資金配分の見直しと、 多様な研究アプローチ の価値再評価

Hackerたちの意見

AIに研究をさせる前に、まずは研究を「再現」させるべきじゃないかな。例えば、深層学習の技術に関する論文を与えて、その実装を作らせるとか。そこができるようになるまでは、新しいアイデアを生み出せるとは思えないよ。

賛成!これは面白いアイデアなだけじゃなくて、再現性をチェックする問題を解決するのにも役立つかもしれないね。でも、それでも人間の評価者がAIが再現した研究を細かくチェックする必要があると思う。実際的には、現在のLLMには研究において役割があると思う。一つはピアレビューのプロセスで、LLMは科学者が使うデータ処理コードの評価を手伝える。もう一つはブレインストーミングや文献レビューの初期段階での利用だね。

「AIに論文の最初の部分(プロンプト)を与えて、残りを完成させる」って言うと思ったんだけど、AIが研究結果と同等の科学を生み出せるっていう検証だよね。それができる前に、新しいアイデアを生み出すことは期待できないな。

LLMのためには非常に完全な監査トレイルが必要で、論文がデータセットのどこにも表示されないことを確認しなきゃいけない。学術的な詐欺の問題は稀だけど、全くないわけじゃないからね。LLMはデータを偽造して、すぐに嘘をつくことがある。

「私が読んだほとんどの深層学習の論文では、専門家が結果を細かくチェックして出力の質を確認していない。どれだけの他の一見印象的な論文が精査に耐えられないだろう?」これって本当にそうじゃないの?自分の分野のAI論文をいくつか読んだし、他の専門家も読んでると思う。ただ、コンピュータサイエンスやソフトウェア関連の研究は生物学よりもチェックしやすいと思う(もしかしたら自分が生物学に詳しくないからかもしれないけど)。

生物学的ラベルの検証には簡単に何年もかかるよ。OPの例では、予測されたタンパク質のラベルに誰かがすでに何年もかけてた「ラッキー」(大きな!)な偶然だった。誰もランダムなモデルの予測を検証するために3〜5年のキャリアを賭けることはないよ。

言語学についての印象だけど、こういう技術を使った論文はみんな慎重に見て批判してるけど、言語学者はあまり真剣に受け取られないから、他の関連分野の人たちはその批判を無視しちゃうんだよね。

レイチェル・トーマスの記事、めっちゃ良かった!これは基本的に、深層学習が「生成的」な情報検索としてしか機能しないっていう別の主張だよね。つまり、訓練データが基盤となるドメインの非常にロスの多い表現だから。遺伝子のデータやラベルが生物学という基盤を完璧に表しているわけじゃないから、出力が間違っていたり無効だったり意味不明になることがある。うまくいく場合はデータ漏洩があるし、LLMは情報検索ツールとして設計されているからね。情報理論の観点から見ると、どんなモデルにも根本的な「未知の未知」がある。自分の考えとしては、アルゴリズムのせいじゃなくて、訓練データセットのせいだと思う。私たち人間は自然言語の領域で流動的に動けるし、子供でもテキストが意味を成すかどうかを読んで評価できる。これがNLPで訓練されたモデルの成功を説明してる。でも、訓練データが根本的なドメインをロスを伴って表している場合、完璧にはならないよね。

AIに必要なのは「現実チェック」サブシステムだね。LLMは、あなたの心の中の幻想的な部分が常にフレーズ(アイデア)をつぶやいているようなもので、私たちの脳内のつぶやきが無限に間違った発言をしないようにするのは、「私の発言は反証可能なものを描写しているか?」と「反証可能性は検出できるか?」っていうチェックなんだ。部屋の中を見回して教会にいる人たちを見て、ああ、再評価すると、これは全員に当てはまるわけじゃないな…。

まったく同感だわ。数ヶ月前のあるランダムな夜、半分寝てて半分起きてる状態になったんだけど、その時、自分の脳が常に意味不明なフレーズをつぶやいてるのに気づいたんだ。フィルターを通る前の思考を聞いてるみたいだった。何百もの言葉や思考、意味が同時に生成されてるのが見える感じで、時間とともに少しずつ進化していくのを見て、脳がそれを一つの文にまとめていくのがわかった。これが毎秒繰り返されて、めちゃくちゃ速いけど「十分に遅い」から実際に起こってるのが見えるんだ。これはただの私の半分寝てる幻覚だから、あまり真剣に受け取らないでほしいけど(〜何も)、似たようなアルゴリズムが必要だっていう気持ちは消えない。もし博士号を追求することになったら、これを試してみるつもり。

人間の「現実チェック」システムは、生成的敵対ネットワークの識別器に似てるけど、感情に強く影響されてるんだ。心理学的には、どれだけ「感情的」かに関わらず、真実や虚偽の感覚はまず感情回路を通るって言われてる。それは根底にある信念に基づいてるんだよ。誰かが自分が強く反対することを言ったら、最初の内面的な反応は感情的になる。それから思考がそこから拾い上げるんだ。

科学の世界にもフェイクニュースが浸透してきてる感じだね。バカなことを言う方が、反論するよりもずっと多くのビューや「いいね」を集める。Twitterとネイチャーのジャーナルを比べることはできないけど。科学は、評判の良いジャーナルやピアレビューのおかげで、こういうバカげたことに免疫があるはずなんだ。出版前に害を及ぼす前にブロックするべきなのに。これはネイチャーの失敗だったの?

そうだね。それに、MLの量子ワームホールのバカげた話はもうやめよう… ここまで来るとやりすぎだよ。ポップサイエンスの記事で大衆を欺くのは十分悪いのに、トップジャーナルでもそれをやってる。善意の間違いもあるけど、もっと多くの場合は、ただのデューデリジェンスがなされていないように見える。研究者もレビューアもね。少なくともジャーナルには感謝しなきゃ。長い間嫌ってきたし、彼らの終わりを見たいと思ってた。出版を自由にして、バカげた新規性や研究の狭まりをなくしてほしい。でも、彼らが自分たちの心臓にナイフを突き刺すことになるとは思わなかった。正直言って、それには満足してないけど。これの唯一の結果は、一般の人々が科学をますます信頼しなくなることだよ。今、私たちがその信頼を必要としている時に。一般の人々が内部の小さな争いについて微妙な見解を区別できるとは期待できないし、ジャンクサイエンスのように反科学の人たちに弾薬を与えるべきじゃないよ…。

ブルシット非対称性原則を思い出した。 https://en.wikipedia.org/wiki/Brandolini%27s_law

高インパクトのジャーナルが論文の撤回率や未確認率が高いっていう統計見たことある?根本的な原因はいろいろ議論できるけど、それを念頭に置いておいて。単一の論文が証拠になることはないよ。多くの研究室での成果や独立した検証が、実際のゴールドスタンダードなんだ。

科学の中にフェイクニュースが入り込んでるみたい。これって新しいことだと思わなかったけど?数年前から再現性危機の話が始まってたよね。

後の調査でデータ漏洩があった可能性が示唆されている これはよく忘れられがちなポイントだと思う。誰もがデータ漏洩があると仮定すべきで、それが強く証明されるまではそう考えるべきだよ。データ漏洩があることを証明するのは読者や懐疑派の役割じゃなくて、著者の証明責任なんだ。小さなデータセットではデータ漏洩が簡単に起こるし、すべてを見れるデータセットでは特にそう。データ漏洩は本当に簡単に導入できて、知らず知らずのうちにやってしまうことが多い。微妙なことがデータを台無しにする。今は誰もが手動で全部をチェックできない巨大なデータセットについて話してるんだ。フィルタリング方法が完璧じゃないことは分かってるのに、どうして漏洩がないと信じられるんだろう?フィルタリングしたと言えるけど、漏洩がないとは言えない。それ以上に、私たちがアクセスできるデータセットでも頻繁に問題が見つかってる。だから、そういうことが起こっている証拠が頻繁にあるのに、どうして私たちは問題がないと仮定し続けるんだろう?ハイプ?正直言って、私たちが信じたいから自分たちに嘘をついてるように聞こえる。でも、そういう問題について自分たちに嘘をついていては解決できないよ。

証明責任の所在がどこにあるかって、オンラインで言われてるほど信じるべきことの明確な指針にはならないと思う。

「Nature Communications」を「Nature」って呼ばないで。全然格が違うから。あと、オルトメトリクスはあんまり関係ないかも、公共の盛り上がりを測るには使えるかもしれないけど。

自分の限られたLLMの経験(研究者として)にぴったり合ってる。書き言葉の理解力や表現力はすごく印象的だけど、 -最良の答え- にたどり着くのは難しい。特に未解決の質問に関しては、半日かけても解決できないような質問に対して、ほぼ即座に返ってくる回答は満足できることが少ない。複雑な質問はじっくり探る必要があるし、今のところLLMの解決できないこと(その能力の限界)は、全く間違っていても自信満々な回答が優先されている気がする。

深いチェリーピッキングも大好きだよね。MLやAIが素晴らしく機能した一回の事例を見つけて、それを大声で褒め称えるために頑張る。失敗した他の何十回のことは無視してさ…。

さらに言うと、深い確率的なパロディも大好き。直接の経験や増えてきた報告を無視して、第一原理からの推論を避けながら、LLMの明らかな有用性を自信を持って否定するために、古くさいミームでその立場を支えてる感じ。