世界を動かす技術を、日本語で。

GPT-5.2が理論物理学において新たな成果を導出しました

概要

  • 新しいプレプリント で、従来ゼロと考えられていた粒子相互作用が特定条件下で発生することを発見。
  • グルーオンの散乱振幅 に焦点を当て、半コリニア領域で非ゼロとなることを示す。
  • AI(GPT-5.2) が複雑な数式の単純化と一般式の発見に貢献。
  • 理論物理学の新たな展開 とAI活用による科学研究の未来を示唆。
  • 今後の拡張 として、重力子や他の粒子への応用も視野。

プレプリント「Single-minus gluon tree amplitudes are nonzero」の概要

  • 著者 :Alfredo Guevara(Institute for Advanced Study)、Alex Lupsasca(Vanderbilt University & OpenAI)、David Skinner(University of Cambridge)、Andrew Strominger(Harvard University)、Kevin Weil(OpenAI)。
  • 研究対象 :グルーオン(強い核力を担う粒子)の散乱振幅。
  • 散乱振幅 :粒子同士がどのように相互作用するかの確率を計算する物理量。
  • ツリーレベル (最も単純なダイアグラムのみを考慮)で、多くの振幅が驚くほど単純な形になる現象。
  • 従来の定説 :1つのグルーオンだけが負のヘリシティ(質量のない粒子の2つのスピン向きのうちの一つ)で、残りが正のヘリシティを持つ場合、ツリーレベル振幅はゼロとされてきた。

新発見とその意義

  • 定説の見直し :従来のゼロ振幅の主張は、粒子運動量が一般的な配列であることを前提としていた。
  • 半コリニア領域 :特別な運動量整列条件(数学的に良く定義される)で、従来の議論が当てはまらないことを発見。
  • 結果 :この領域では振幅がゼロとならず、実際に計算可能であることを示した。
  • 今後の展開 :重力子(重力を媒介する粒子)などへの拡張や、さらなる理論的検証の可能性。

AI(GPT-5.2)の貢献

  • 複雑な数式の単純化 :人間研究者が手計算で得た複雑な式(n=6まで)を、GPT-5.2 Proが大幅に簡略化。
  • 一般式の発見 :簡略化された式からパターンを見出し、全nに有効な公式を提案。
  • 証明と検証 :GPT-5.2内部バージョンが約12時間かけて同じ公式を導出し、形式的証明を作成。
  • Berends-Giele再帰関係soft定理 (粒子がソフトになる極限での振る舞い)による検証もクリア。
  • 重力子への拡張 や他の一般化もすでに進行中。

物理学者からのコメント

  • Nima Arkani-Hamed(Institute for Advanced Study)

    • 長年の疑問が解決され、シンプルな式の発見に興奮。
    • 複雑な物理量が実は単純な式で表現できることは、理論物理でよくある現象。
    • シンプルな公式が新しい構造や理論の発見につながる重要性。
    • こうしたパターン認識がAIによって自動化されつつある現状への期待。
  • Nathaniel Craig(University of California, Santa Barbara)

    • 今回の成果が自身の研究プログラムにも影響を与える可能性。
    • AIと物理学者の協働による新知識創出の未来を感じる。
    • GPT-5.2と人間専門家の連携が、厳密な科学的検証のテンプレートになる点を評価。

AI活用による科学研究の未来

  • AIと人間の協働 による新しい発見プロセスの確立。
  • シンプルな数式やパターンの自動発見 が今後の科学研究を加速。
  • 理論物理学 のみならず、他分野への波及効果も期待。

Hackerたちの意見

彼らは、ChatGPTが新しいエルデシュ問題を解決したと主張してたけど、実際はそうじゃなかったみたい。もっと外部の検証があってからじゃないと信じられないな。でも、もし本当ならめっちゃクールだね!

それって、なんかマーケティングの人の発言みたいじゃない?今回は本物の物理学者たちが関わってるから、信頼できそうだね。

いや、彼ら(OpenAI)はそんな主張はしてないよ。確かに、LLMは数個のエルデシュ問題に対してユニークな解決策や貢献をしてるけどね。

それがどうしてそうじゃないの?私の理解では、ChatGPTは問題解決に重要な役割を果たしてたと思うよ。たとえ完全に一人で解決できなかったとしても、Leanみたいな他のツールとの組み合わせはすごく印象的じゃない?

「内部のスキャフォールド版GPT-5.2が約12時間かけて問題を考え、同じ公式を導き出し、その妥当性の正式な証明を作成しました。」私がGPT 5.2 Thinking Extendedを使ったとき、かなり一貫性があってエラー率も低い(もしくはエラー修正能力が十分ある)印象を受けたよ。もし許されれば、数時間数学や物理を自律的にできるんじゃないかなと思った。でも、Extendedの時間制限は30分くらいで、Proは1〜2時間くらいみたいだね。ここでその印象の確認ができて嬉しいよ。科学者や数学者たちが、こういう時間スケールで考えるツールを使えるようになるのが待ち遠しいね。

そうだね、5.3や最新のCodex CLIクライアントは、圧縮に関してすごく良いよ。12時間の実行で状態を維持し、コンテキストを管理するために使っている方法論を知ってる人いる?単一の密なドキュメントとその内部圧縮アルゴリズムが使われているだけかもしれないね。

その30分後に、手動で再度問題に取り組むように頼むことができるよ。

見出しを読むと、AIが物理の新しい結果を自力で発見したみたいに思えるけど、投稿を読むと、人間が最初に問題を解こうとして、複雑になって、GPTがそれを簡略化して解決策を見つけたってことだね。GPT Proがこれをするのに12時間かかった。私の経験では、LLMは既存のものの線形結合から新しいものを作ることができるけど、まだ完全に異なる原理から何かをやらせることはできてないな。

「GPTがこれをやった」。著者は、ゲバラ(高等研究所)、ルプサスカ(バンダービルト大学)、スキナー(ケンブリッジ大学)、ストロミンガー(ハーバード大学)。普通のGIジョーがこれを引き出せるとは思えないな… 推測と証明に至るチャットログを見せてくれるまで、私は懐疑的だよ。

失礼なことを言いたくはないけど、「LLMsはXをできない」みたいな具体的な声明を事前に出しておいた方がいいかも。あなたの目標が気づかないうちに変わってる気がするから。今、理論物理学の重要な貢献について話してるんだよ。細かいことを言うのはいいけど、4年前の自分の期待に戻って考えてみてほしい。AIがこれをできるって聞いたら、驚くし感心すると思わない?答えは明らかに「はい」だよ。あの頃の記憶が選択的でも、あんまり関係ないし。

これが重要な部分だと思う(言い換え):人間は手作業で整数nの振幅をn=6まで計算して、すごく複雑な式を得たんだ。それは「ファインマン図の展開」に対応していて、その複雑さはnに対して超指数的に増える。でも、誰もその式の複雑さを大幅に減らして、もっとシンプルな形を提供できなかった。そんで、これらの基本ケースから、誰もパターンを見つけて、すべてのnに対して有効な公式を提案できなかった。GPTがそれをやったんだ。基本的には、GPTを使って公式をリファクタリングして、すべてのnに一般化したってこと。それを自分たちで検証したんだと思う。ただ、これって1986年にはすでにわかってたことだと思うけどね: https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.56... それに関しては https://en.wikipedia.org/wiki/MHV_amplitudes も見てみて。

自分の経験では、人間は既存のものの線形結合から新しいものを作ることができるけど、まだ完全に異なるものを第一原理から作らせることはできてないんだ。[0]: https://slatestarcodex.com/2019/02/19/gpt-2-as-step-toward-g...

でも、まだ完全に異なるものを第一原理から作らせることはできていない。 人間は実際にそれができるの?時々、まるで完全に新しい発見をしたかのように見えることがある。でも、よく見ると、そのブレークスルーには多くの出来事や発展があって、実際には既存の何かを改善したものなんだ。私たちは常に巨人の肩の上に立っているんだよ。

真剣な質問なんだけど、「LLMを何時間も放置する」ってよく聞くけど、実際にはどうやってやるの?それは自分のコンテキストをどう管理してるの?そんなにトークンがあっても全然迷わないの?

チェスエンジンが最初に開発されたとき、最高の人間よりも劣っていたんだ。何年も開発を重ねて、最終的には最高の人間にも役立つようになったけど、まだ負けることもあった(1985~1997年)。その後、彼らは人間を追い越したけど、人間とコンピュータの組み合わせがどちらか一方よりも良かった時期があった(1997~2007年頃)。それ以来、チェスのゲームでは人間はほぼ時代遅れになってしまった。5年前、LLMに関しては知識労働のステージ1にいた。数年後にはステージ2に達した。現在は、知識労働の非常に高い割合でステージ2とステージ3の間にいる。ステージ4は来るだろうし、私はそれが早い方だと思うよ。

うーん、ちょっと軽視してる感じがするな。人間の出発点からその一般的な方程式を考え出すのがどれだけ難しかったかは正確にはわからないし。物理学の学位を持ってるから少し知識はあるけど、通常、特別な条件下で機能する複雑で汚い方程式を考えるのは簡単な方で、難しいのはそれをエレガントで「自然」な一般的なものに簡略化することなんだ。「LLMは既存のものの線形結合で新しいものを作ることができる」って言っても、あまり意味がないよね。まず「もの」が何かを正確に定義しないと、線形結合が何かもわからないし。

「私の経験では、LLMは既存のものの線形結合から新しいものを作ることができるけど、まだ第一原理から完全に異なることをさせることはできていない。『第一原理』と『既存のもの』の違いは何だろう? LLMが画期的な結果を生み出せないという考えには共感するけど、それは厳密な意味での画期的な結果に限った話だと思う(それは人間にとってもかなり珍しいことだし)。」

なんかお決まりのHNの返事みたいだけど、「人間は第一原理から完全に異なることをやったりするの?」っていうのも深いよね。

散乱振幅の全粒子物理学の概念をテストケースとして考えるのはあんまり興味ないかな。散乱振幅は一番簡潔な定義の一つだし、その解法もストレートだよ(もちろん簡単ではないけど)。だから、量子力学と散乱をしっかり理解したら、あとは数学の知識を使って問題を解くことになる。実際の問題は、自分のモデルからパラメータを定義して、ツリー・レベルの計算を定義することなんだ。LLMがそれを解くのはすごいけど、研究者たちがすべてを定義して、ワークフローを考え出したからね。だから、もっと情報があれば、LLMが新しい結果を発見したってことにあんまり重点を置かずに読むと思う。タイトルはちょっと誤解を招くけど、実際には「導出する」っていう言葉が重要だから、分野の人にとっては技術的に正しいと思う。

「人間がGPT-5.2を使って理論物理学の新しい結果を導き出した」と言った方が正確だと思う(もしくは、ちょっと優しく言うなら、人間とGPT-5.2が一緒に新しい結果を導き出した)。タイトルはGPT-5.2が独自に完全またはほぼ完全な論文を作成したように聞こえるけど、実際には人間が導き出したデータポイントを使って、一般化を仮定して、その一般化を証明したってこと。論文をざっと見た感じ、これは正当な著者クレジットを得るに足る重要な貢献だと思うけど、タイトルだけ見るとちょっと誇張だと思う。

AIの新しいブレークスルーが出るたびに、必ず「これはLLMにとって実際には勝利じゃない」って手を振って否定する人がわんさか現れるのが面白い。例えば、GPT 5.2がエルデシュ問題に対して見つけた新しい解法について、ここにいる多くのユーザー(このスレッドの中でも!)がフィールズ賞受賞者のテレンス・タオよりも詳しいと思ってるみたい。彼はこのリストを維持していて、はい、LLMがこれらの証明を推進したことを示してるんだよ: https://github.com/teorth/erdosproblems/wiki/AI-contribution...

タイトルから生まれる緊張感は明らかだね。実際は「GPT 5.2が、分野の専門家4人の監督のもとで12時間計算した結果、より一般的でスケーラブルな方程式の形を見つけた」ってこと。これは、無数にあるニッチなアルゴリズムのいくつかを取り出して、数人の専門家がそのアルゴリズムを使ってLLMに疲れ果てるまで計算させて、より良い式を見つけるのと同じことだよ。専門家たちが正しい方向に促し、適切なフィードバックを与えた後の話ね。面白い?もちろん。AIを高く評価する?うん。タイトルが示すように、AIが理論物理学を独自に革命化しているってこと?それは違うね。

ちょっと同情しようよ。今、多くの人がキャリアについて不安になっていて、防衛本能が働いてるんだ。多くの人にとって「実際、これが今の私の仕事のほとんどをこなせるし、参入障壁がゼロになった」って言うのは難しいことなんだよ。

鋭い髪型の上司や流行に乗ったCEOたちが、こういう突破口をAIの義務やレイオフの正当化として(間違って)指摘するから、ネガティブな考えに陥りやすいよね。

懐疑的なのはピーナッツギャラリーだけじゃないよね:https://www.math.columbia.edu/~woit/wordpress/?p=15362 似たような結果が文献に出てくるか、数日待ってみよう。

AIは、自分のやるべきことが分かっている人にとっては素晴らしい生産性の倍増器になり得るよ。この結果は、最近Anthropicが投稿したCコンパイラのケースを思い出させた。確かに、エージェントたちは何時間もコードを書いたけど、その背後には人間がいて、方向性を示したり、問題を定義したり、エージェントのループが実際に機能するために必要なテストスイートを見つけたりしてたんだ。一般的には、出力が実際に機能することを確認して、他の人と共有する価値のあるストーリーにすることが重要なんだよ。「AIがXで人間を置き換える」っていうナラティブは、主に注目や資金を集めるための道具だね。印象を作ったりブランド価値を築くのにはうまくいくけど、問題の定義や検証、最終的には別のツールを使って問題を解決するというハードワークをしている実際の研究者やエンジニア、一般の人々に対しては不利益をもたらすんだ。

実際、結果はメディアが言っていたよりもずっと悪くて、印象的でもなかったよ。

そうだね。もしニコラス・カーニがクロードを運転していなかったら、彼の何十年もの経験がなければ、クロードのCコンパイラは存在しなかったと思う。そこに到達するには彼の専門知識と経験が必要だったんだよね。

最適化されてないCコンパイラを「最適化Cコンパイラ」と呼べるかは疑問だな。Cをコンパイルはするけど、文法的に有効じゃないものもたくさんコンパイルするし。生成されるコードはたくさんあったけど(すごい!)、統合がうまくいってなくて、約束したこともできてなかった。人間側もそれを理解するための専門知識がなかったし。私は理論物理学者じゃないけど、似たような理由で懐疑的な立場を取るよ。

「AIがXで人間を置き換える」という話は、主に注目と資金を集めるための道具だね。それはまた、正当な懸念でもある。今は「最後の重要な10%」や問題の定式化の最初の重要な10%に人間が必要な状況にいるから、複雑なタスクのほとんどにおいて人間はまだ重要なんだ。でも、それが必要である理由は論理的にはないよ。そうでなくなったら、人間は置き換えられるだろうね。

自分のやってることを理解している人たちにとってね。昔ほどそういう人たちを生み出せてないんじゃないかって心配してるよ。

AIは、自分のやってることを理解している人たちにとって素晴らしい生産性の倍増器になり得る。 > [...] >「AIがXで人間を置き換える」という話は、主に注目と資金を集めるための道具だね。君は全か無かみたいな感じで話してるけど、研究を導く人がいるチームで「力の倍増器」だった人間たちはどうなるの?もしソフトウェアが10人のチームを必要としていたのが、1人のエンジニアがAIを監督する形で作られたら、それでも90%の仕事が失われることになるよ。最近の例で言うと、UberやLyftのドライバーが「AIが私の仕事を奪った」と思わないと思う?たまにWaymoの低信頼度介入を扱ってるチームがどこかのビルにいるからって、100%自律じゃないからって。

多くの革新は異なる分野の交差から生まれるもので、特定の分野にしっかり根ざした複数のエージェントが互いにコミュニケーションを取ることで交差点や最適化を見つけるループができるのは、そう遠くないと思う。特に、12時間以上稼働できるならね。実際、99%の革新の試みは失敗するけど、1%が素晴らしいものを生み出す可能性がある。試みを増やせば増やすほど、進歩は早くなるよ。

それは素晴らしいね。もっと安価なモデルで数学をする方法を研究し始める必要があると思う。適切な強化学習を使えば、もっとスリムなモデルでこれらの結果を達成するのは可能だと思うんだ。

どうしても思い出しちゃうな、https://en.wikipedia.org/wiki/Bogdanov_affair