世界を動かす技術を、日本語で。

私のプラズマ物理学研究におけるAIは、思っていた通りにはいかなかった

概要

  • Nick McGreivyはAIが物理学研究を加速させると期待していたが、実際の応用では失望を経験したことを報告。
  • AIによる科学革命の可能性は過大評価されており、現実には成果が限定的であることを指摘。
  • PINNや深層学習を用いたPDE(偏微分方程式)解法の実験で、多くの論文が不公平な比較や再現性の問題を抱えていることを明らかに。
  • AIの科学研究への採用が急増している一方で、否定的な結果がほとんど公開されていない現状を問題視。
  • AIは今後も科学の「革命的」な道具ではなく、「段階的」な進歩のツールにとどまる可能性が高いと結論。

AIによる物理学研究加速の限界と現実

研究動機とAIへの期待

  • Nick McGreivyは Princeton大学 でプラズマ物理学を専攻し、 AI技術で物理学研究を加速 できると考え研究テーマを変更することを決断。
  • 高給インパクトの大きさ も動機となり、AIによるPDE(偏微分方程式)解法の研究に着手することを選択。

PINN(Physics-Informed Neural Network)の実践と限界

  • PINN はPDEをニューラルネットワークで解く新しい手法として注目され、多くの論文で高評価されていたことを確認。
  • 実際にPINNを使い 簡単なPDE に適用したところ、 期待外れの脆弱性再現性の低さ に直面することを経験。
  • PINNの代表的論文も「 特定設定で良い結果が出ても他で失敗する」ことを認識していたが、失敗例はほとんど公開されていなかったことを確認。
  • PINNの 信頼性の低さチューニングの難しさ から、主な研究手法としては不適切と判断することを決定。

AI研究におけるバイアスと再現性問題

  • AI研究では 否定的結果がほとんど公開されない ため、 生存者バイアス が発生しやすいことを認識。
  • 高インパクト論文 ほど楽観的な結果を強調しがちで、研究者のキャリアや資金調達のためにポジティブな結果が優先される傾向を指摘。
  • PrincetonのArvind NarayananやSayash Kapoorらによる「 データリーク」調査でも、 再現性危機 が科学分野で広がっていることが判明。

PDE解法におけるAIと従来手法の比較

  • AIによるPDE解法について、多くの論文が「 標準的な数値解法よりも高速」と主張しているが、実際は 比較対象が弱いベースライン である場合が大半であることを確認。
  • 強力な数値解法 と公平に比較した場合、AIの優位性はほとんど消失することを実証。
  • 自身と指導教員で 流体力学分野のAIによるPDE解法論文を系統的にレビュー し、約8割の論文が不適切なベースライン比較を行っていたことを明らかに。

AIの科学研究への導入動機と今後の展望

  • 科学者がAIを導入する主な理由は「 科学への貢献」よりも「 自身のキャリアや利得」である傾向を強調。
  • AIは今後も「 革命的な変革」ではなく、「 段階的・不均一な進歩のツール」として利用される可能性が高いと結論。
  • AIの科学的ポテンシャル に過度な期待を持つべきではなく、冷静な評価と慎重な導入を推奨。

まとめ

  • AIを科学研究に導入する際は、 公平な比較否定的結果の共有再現性の確保 が不可欠であることを再認識すること。
  • AIは 万能な解決策 ではなく、 一つのツール として位置付け、過度な期待を避けることが重要であると提案。

Hackerたちの意見

私は全然AI推進派じゃないけど、ネガティブな結果が公表されないことや、みんなが研究論文で自分の成果を過剰にアピールしてるのは、残念ながらAIに限った話じゃないよね。これは科学者が評価される方法や、科学出版業界の問題の結果で、基本的には伝統的なメディアが抱えるのと同じ問題(視聴者を求める)に苦しんでる。まあ、冬が来るね、そうだよね?

でもAIのおかげで、説得力のある論文を書くのが楽になったよね。

確かにそうだね。でもAIの論文では、「…もし無限のGPUを投入して永遠に動かしたら、{magic_benchmark}が得られる」とか、「私たちが要求に応じて利用可能だと主張する超秘密の実データセットでこの非常に賢いアルゴリズムを評価したら、私たちがどれだけ賢いかを示すチャートが見られる」といったコメントがよく見られるよね。確かに、これはしばしばフラグを立てる行為だけど、こういう論文が大企業から出てくると、明らかな欠陥や問題があっても「無視して進む」ことはできない。リソースを巡る競争だから、低予算の大学の(元)研究者としては、競争できない。文献で「ベンチマーク」として渡される数字を信じるしかない状況で、再現性の可能性もない。

AIは現在のハイプの磁石に過ぎないから、亀裂がより明確に見えるんだ。

私は15年以上前にAIの実用的な応用について初めて論文を発表して、その後別の分野に移った。最近また引き戻されてきた。これは科学全体の問題だと思うけど、AIは名声や富を求める研究者を引き寄せる傾向が強いように見える。誇張された主張やデータの選別は、私の限られた経験の中でもさらに極端に感じられるし、責任ある研究者でさえ競争するために少し誇張してしまうことがある。

これは主に学術界の問題の繰り返しだと思う - もはや真実を追求するのではなく、引用数やキャリア主義に焦点を当ててる。AIはその現象が起きているもう一つのトピックに過ぎない。

一般化したくはないけど、このパターンがどれだけ広がっているのかはわからない。でも、私の仕事はドイツのいくつかのHPCセンターを行き来することなんだけど、気づいたパターンは、これらの場所には多くの拒絶された物理学者がいて、配分されるAI資金の多くが彼らに吸い取られて、結果として多くのML4Scienceプロジェクトが生まれていることだ。個人的にはちょっと残念だと思う。HPCセンターは物理学者だけのために存在するわけじゃないし、特にAI資金がある今、ドイツではもっとAIコアの研究をすべきだと思う。

「no longer」がここで何を意味するのか全然わからない。

公平に言うと、キャリア主義の問題は、学界が民間セクターに夢中になって、その問題を引き継いでしまった副作用なんだよね。ソフトウェア開発者として働いて学んだことの一つは、すべての決定がキャリア主義的で自己中心的な視点からなされるってこと。誰も最善のことを気にしない、彼らが気にするのは最も印象的で、自分を前に進めることだけ。終わったら、それは彼らの問題じゃないし、誰も彼らを責められない。この考え方は非常に広まっていて、それに賛同しないと、バカにされる。だって他の人はそうするし、彼らはただあなたを追い越すだけだから。結果は同じだけど、今はあなたの方が悪化してる。

面白い記事だね。新しいホットな技術が実際の価値以上に注目を集めるリスクは常にある。私にとってこの記事のキーワードは「ほとんどの科学者は誰かを誤解させようとしているわけではないが、有利な結果を示す強いインセンティブに直面しているため、誤解を招くリスクは依然としてある」という部分だね。人々のインセンティブを理解することは、彼らの言っていることを見るときに非常に役立つことが多い。

AIという言葉を使うことで大金を稼げることに気づいた人たちもいる。でも結局、どんなソフトウェアにも何らかの機械学習が組み込まれてるよ。新しいことでもないし、現在の実装が特に素晴らしいわけでも正確なわけでもない。

記事は最初、科学におけるすべてのAI(少なくとも著者の分野)は誇大広告だと示唆しているように見える。でも、彼らの不満は、過剰に宣伝されているように見えるPINNというアーキテクチャに特有のようで、最後には他のDLモデルを使って従来の数値的方法よりもPDEを速く計算することに成功していると述べている。

彼は広範囲なモデルの体系的分析を提供する論文を一つ発表したんだ。それに関するセクションもあるから、PINNに特有の話ではないよ。

PINNを何かの「AI」ソリューションに置き換えても、結局は過大評価されてることに気づくよ。今のところ「AI」の現実的な評価は、専門家が退屈な作業をスキップするために役立つって認めてるものだけだし、その後は出力を三重に確認しないといけない。

PINNsよりも広く使われてるよ。PINNsはずいぶん前からゴミだって知られてたけど、MLを物理問題に使う一般的な失敗はもっと広範囲に及んでる。MLが本当に輝くのは、比較的多くの実験データがある狭い領域のとき。これは90年代からある機械学習による原子間ポテンシャルMLIPsのケースだね。天気予測モデルにも当てはまるかもしれないけど、それについてはコメントしたくない。あるいは、ものすごい量のデータがあって、すごく大きなモデルをトレーニングする場合。これが「AI」と呼ばれるものだよ。これがアルファフォールドが成功してる理由で、でもアルファフォールドはトレーニングデータのデータポイントから遠く離れた入力に対しては良い結果を出せないんだ。でも物理問題に対するほとんどのMLはその中間にあって、実験データが不足してたり、シミュレーションデータが高価すぎて十分に使えなかったりする。さらに、推論が遅くなるから大きすぎるモデルをトレーニングできなかったりして、非常に広範囲な物理を学習することを期待してる。で、みんな簡単に試せるからハイプトレインに乗っかるんだよね。そしてみんな同じようなダメな結果を得る。でもそれでも論文を発表する。もしラボやPIが有名だったり、問題をユニークで科学的・数学的に見えるように表現すれば、良いジャーナルやカンファレンスに論文を載せてたくさん引用されることもある。でも結局、みんなと同じ結果にしかならない:トレーニングデータをある程度再現するだけで、一般化の問題は他の誰かがやるべきことだよ。

HNでAI/MLの認識についてこんなに意見が分かれる理由がわからない。こんなの見たことないよ。文字入力に基づいてコード生成するようなシステムなんてなかったのに、先週は画像セグメンテーションをするためのスクリプトを頼んだら、クラウドが1分以内にそれを生成してくれた。画期的な例をたくさん挙げられるよ。画像生成のスタックは完全に新しいものだし、そのブログ記事は妥当だと思う。確かにこのトピックにはハイプがあるけど、研究のためにコードを書く必要がある研究者にとって、AIはすでにかなり効率を上げてくれると思う。でも、私たちは新しい時代に入ったと思う:データを再び真剣に扱う時代。数年前、「インターネットは忘れない」と言ったけど、実際にはインターネットは忘れ始めた。Googleはページを削除し、キャッシュ機能を取り除いて、データに対して関心を失ったように感じた。そこにAIが登場した。今やデータが再び王様になって、私たちは強化学習の時代にいる:フィードバックを与えて、そのシステムがそのフィードバックをトレーニング/学習に取り入れる。AI/MLのトピックは、ハードウェア、アルゴリズム、ユースケース、データ、ツール、プロトコルなど、すべての側面で取り組まれている。私たちはそれに取り組んで構築している最中で、これには少し時間がかかる。進捗は本当に疲れるけど、数年後に本当の限界があるかどうかがわかるだろう。もっと多くのGPUや大きなデータセンターが必要で、AIアーキテクチャやアルゴリズムの実験をもっと行う必要がある。明確なボトルネックがあるよ。大企業は何週間も何ヶ月もかけて一つの大きなモデルをトレーニングしてる。

でも逆に、「AIが科学を革命する」っていう話は、証拠が支持するものよりもずっと先を行ってる感じがする。

「なんでHN(あらゆる場所の中で)でAI/MLの認識についてこんなに意見が分かれてるのかよくわからない。」みんな自分の視点から合理的に考えてるんだよね。AIを持ち上げてる人も、ハイプを否定してる人も、それぞれに理由がある。新しい技術を画期的だと見るのも理解できるし、データの大規模な盗難やプライバシーの軽視に対して警戒するのも理解できる。まずは、どんな問題にもたくさんの意見があることを認めて尊重しよう。ちょっと自分を置いてみて、相手の立場を理解してみて。本当に理解してみて。他の人の靴を履いて長い散歩をしてみよう。

でも、研究者が自分の研究のためにコードを書く必要があるとき、AIはすでにかなり効率的にしてくれる。科学者は効率的である必要はなく、正確である必要がある。ソフトウェアのバグは科学的なエラーの大きな原因であり、再現性の欠如にもつながっている。例えば、こんなケースを見てみて(https://www.vice.com/en/article/a-code-glitch-may-have-cause...)。研究環境でのプログラミングは、業界に比べて質に疑問があることで知られているけど、研究では小さなエラーが全体の研究結果を台無しにすることがある。みんなうんざりしていて、AIに対して厳しい判断を下すようになっている。ラボのような環境では、印象派の画家やそのAI版のような態度でソフトウェアを書くことはできない。実際に自分が何をタイプしているのかを知っている必要がある。AIは、正しさを気にしないなら効率的にしてくれるかもしれないけど、夏のビーチバレーイベントのために画像を生成するならいいかもしれないけど、科学的な環境でコードを書くのは大失敗だよ。

先週、基本的なUIで画像セグメンテーションをするスクリプトを頼んだら、クラウドが1分もかからずに生成してくれたんだ。問題は、ただのスタックオーバーフローのコピペに見えるけど、今はそれがちょっとおしゃれになって「近くのレストランをGoogleに聞いたら500msで見つけてくれた、俺のC64じゃできなかった」と聞こえることなんだ。すごく聞こえる(実際すごいけど)、まるで「現実世界のナビゲーションを学んで、すべてを解決できるようになった」みたいに。でも実際に解決したのは「GISデータベースでの派手なルックアップ」なんだ。役に立つことは間違いないけど、目新しさがなくなると、それが想像しているものではなく、実際のものとして見えてくる。編集: ポイントを強調するために。> クラウドがそれを生成した あなたが思っているのは、AIが「考えて」いて、論理的な結論に至るためのオントロジーを構築していること。でも実際には、あなたの入力がトリリオンの例に基づいてこの出力と相関しているだけなんだ。オントロジーも推論も何もない。もちろん、これはまだ印象的で非常に役に立つけど、目新しさは時間とともに薄れていく。限界はこの時点で明らかだよ。

Googleがなぜキャッシュを公開しなくなったのか、良い理由を示さなかったけど、私の理論は、LLMをトレーニングするために人々がそれをスクレイピングしていたからだと思う。

HNはいつも「現在のハイプ技術がどれだけ本物か、ただのハイプか」で意見が分かれる。これを何度も見てきたし、異なる技術について異なる時期に異なる立場にいたこともある。私にとっては、昔と変わらないよ!

プログラマーの究極の仕事は、人間の言語をコンピュータの言語に翻訳することだ。コンピュータは非常に能力が高いけど、非常に暗号的で論理的な言語を話す。LLMはその領域に確実に踏み込んでいる。どこまで進むかはわからないけど、壁は突破された。これは、長年磨いてきたスキルに対する本当の脅威であり、それを持つことは非常に利益がある。プログラマーは置き換えられる必要すらなくて、シニアの役割で年収100Kドルに妥協することになるのも、ちょっと怖いことだよ。

先週、基本的なUIで画像セグメンテーションをするスクリプトをお願いしたら、クロードが1分もかからずにそれを生成してくれたんだ。これは役に立つと思う!自然言語を使ってスクリプトを補強して、うまくいくかもしれないし!いいね!AIはスクレイピングしたデータをLLMで解析して、いくつかのimagemagickのスニペットをシェルスクリプトに組み込んでる。これはすごく役立つし、ほとんどの人はimagemagickを詳しく知らないから、時間を大幅に節約できるよ。だけど、技術リーダーがこういう些細な例を見て、これが自社の一般的なソフトウェアエンジニアリングに当てはまると思い込むのが本当にイライラする。「ああ、コードを書いたり、エンジニアを早くしたりするんだ。これを推進するマネージャーを今すぐ確保しよう!それに、レイオフも始めないと。AIを一番うまく使っている人をランキングして、準備を整えよう。」でも、実際にこれらのツールを使っているエンジニアは、正直に言うと(スタックランキングがあるから、正直じゃないかもしれないけど)、こう言うよ。「いい日には生産性が1.1〜2倍になるかな?悪い日には、1万行のLLMコードを廃棄して、自分でドキュメントを読んで、意図的な5行のコードで問題を解決することになる。」お願いだから、私が追加したこの詳細に注意を払ってほしい:巨大で、ひどく書かれたコードベース。これは、シリーズAのスタートアップを卒業したほとんどのソフトウェア会社の現実なんだ。私や同僚がリーダーシップに伝えたいのは、「スクリプトを作った」とか「バックエンド付きのHTMLフォームを作った」という例は、実際に私たちが扱っている炎のようなゴミ箱のコードベースにはうまく当てはまらないってこと。時にはツールが助けてくれることもあるけど、時にはそうじゃない。LLMは、時々使う別のツールみたいなもんだ。だからイライラしてるんだ。タスクに合わないツールを「使うか解雇される」と上司に言われるのは本当にストレス。LLMに全く価値を見出していないわけじゃないんだけどね。

ソフトウェアの仕事のほとんどは、あなたの例のような一回限りのスクリプトを作ることじゃないんだ。仕事の多くは、社内のスタイルやサービスに対するアプローチ、アノテーションで駆動されるSpringのようなさまざまなサードパーティのフレームワークを含む既存のコードベースを修正することに関するもの。ここでAIはあまり役に立たない。完璧なスクリプトを作ろうとするよりも、直接コードを変更した方がずっと時間を節約できるよ。

一つの理由ではないよね。LLM(大規模言語モデル)が適切に使われれば、いくつかのタスクではかなり役に立つのは誰も否定しないと思う。一方で反対意見には、たくさんの理由がある。* AIにお金を賭けた創業者や他の人たちは、問題があっても hype を盛り上げようとする。* 彼らの中には明らかに嘘をついている人もいるけど、一般の人にはそれがわからない。* 彼らは自分の仮定を事実として繰り返す(「AIはZ年までにほとんどのXやYの仕事を奪う」)。* LLMの膨大な発展が停滞しているのは明らかだけど、彼らは一般の人に逆だと納得させようとする。* 一人の個人(アーロン・シュワルツ)が小さな著作権侵害をした時の扱いと、OpenAIやMetaのようなAI企業がLibgenの全コンテンツをコピーした時の結果が全く違うのが見える。* 私みたいにAIのクソみたいなものが嫌いな人もいる - 書くことや映像に関して。それが本当に嫌で、読むのや見るのをやめちゃう。こんなポイントはもっとたくさんあるよ。

素晴らしい分析と的確な例だね。AI関連の研究のもう一つの問題は、多くの論文が新しくて、「適切な」場所に発表されるものが少ないのに、右から左、真ん中まで引用されていることだ。結果を再現したり、いくつかの主張の妥当性を確認するのが難しいし、4年前に行われた研究が一つのモデルセットを使っていたのに、今は異なるトレーニングデータを使った別のモデルセットがテストに使われている。何が本当に結果に影響を与えているのか、結論が古いモデルの特定の特性に適用できるのか、それとも一般化できるのかを確立するのが難しい。

私は科学者でも研究者でもないけど、統計やデータ解釈に基づくものにはすぐに疑いを持っちゃう。

ブログのオーナーの名前(「ティモシー・B・リー」)を見て、HTTPやウェブの発明者が70歳近くでこんなにアクティブで最先端のブログを持っていることに驚いたよ。

数週間の失敗の後、別の大学の友達にメッセージを送ったら、彼もPINNsを使ってみたけど、良い結果が得られなかったって言ってた。AIとはあまり関係ないけど、これは大学の研究で遅すぎる教訓を反映している:常に協力することが重要で、他の人がすでに失敗した領域を繰り返さないように助けてくれる。

それとも、研究者が失敗した実験を発表する必要があるの?

科学のためのAIエージェントのアイデアがあまり意味を持たない理由の一つだね。研究は非常に協力的な活動のセットだから。文献レビューが得意だけど、誰とも話さず、会議にも行かない研究者って、どれだけ良いんだろう?

AIのFEMライクな構造ソルバーを試す「運が良い」経験をしたんだ。せいぜい、線形で小さな変形の問題にはまあまあだけど、5分で正確な解が得られるモデルと、30秒でかなり雑な解が得られるモデルの話ね。非線形のものを投げ込むと、すぐに崩れちゃう。非常に高レベルのコンセプト選定には使えるかもしれないけど、それでもあまり良くない。いくつかはただの「曲率検出器」なんじゃないかと思う - 直線を青に、高曲率のものを赤にして、他のものを補間するだけ。

これらのモデルを反復ソルバーの前処理器として使える?

そうだね、これは「第二原則」の解決策みたいなもので、見たことのないものを合成することはできない。

タイトルが変わったの?それとも私が幻覚を見始めたの?タイトルは「AI科学のハイプに騙された—私が学んだこと」だよね。

変わったね(私の意見では悪化した)。元のタイトルから離れてしまった。元のタイトルは深刻な問題がない限り、ここでは好まれるべきだと思う。この元のタイトルには深刻な問題はなかったと思うけど、PhD候補者の思慮深い批評を正確に要約するのが深刻な問題なら、どうかしてる。

いいえ、あなたは幻覚を見ているわけではないよ:https://web.archive.org/web/20250520152757/https://news.ycom...