世界を動かす技術を、日本語で。

最近の「ChatGPT 5.5 Pro」に関する体験

概要

  • ChatGPT 5.5 Pro が、数学の研究課題において 人間レベルの成果 を短時間で出した事例の紹介
  • Erdős問題 など、既存の文献や既知の結果からの導出を超えたAIの進化
  • Nathansonの加法的整数論の問題 に対し、AIが新たな構成法を提示
  • 論文執筆や証明の自動化、既存研究の枠組みをAIが拡張した実例
  • AI生成数学成果の公開・評価方法 に関する新たな課題提起

LLM(大規模言語モデル)による数学研究の進化

  • LLMの数学的能力 が想定以上に急速に向上
  • ChatGPT 5.5 Pro が、 PhDレベルの研究成果 を約1時間で自動生成
  • Erdős問題 など、既知の文献からの解答のみにとどまらず、 新規な証明構成 が可能に
    • 以前は「文献の答えを見つけるだけ」と軽視されていたが、現在は 独自の発見 も増加
  • 人間が見逃していた簡単な証明 をAIが発見するケースが増加
  • 既存の知識の組み合わせ が中心だが、人間の数学研究も多くは同様の手法

Nathansonの加法的整数論問題へのAIの挑戦

  • Nathanson による「Diversity, Equity and Inclusion for Problems in Additive Number Theory」論文の問題を選定
    • 整数集合の和集合(sumset) のサイズに関する問題
    • Sidon集合等差数列 を用いた構成法
  • ChatGPT 5.5 Pro が、与えられた条件下で 最適な二次的上限(quadratic upper bound) を発見
    • Nathansonの手法を発展させ、より効率的なSidon集合を利用
  • 制限和集合(restricted sumset) についても、AIは即座に解答を提示
  • 一般のkに対する場合 も、既存研究(Rajagopal)を参考にしつつ、 指数関数的上限の改善 を達成

AIによる証明の自動生成・論文執筆の実際

  • 証明の構成 から LaTeXによる論文執筆 までAIが自動で実行
  • 人間研究者による検証 を経て、AIの証明の正しさが確認される事例
  • アイデアの独創性 についても、人間が数週間かけて考えるレベルの発見をAIが1時間未満で実現
  • AIと既存研究の協調 による新たな数学的進展

AI生成数学成果の公開・評価の課題

  • AI生成の数学的成果 の取り扱い方法が未確定
    • 人間の研究者による成果ならば「出版価値あり」とされるレベル
    • arXiv ではAI生成コンテンツの投稿が禁止
    • 新たなリポジトリや公開プロセス の必要性
  • 人間による検証・証明支援ツール (proof assistant)との連携
  • 過剰な審査負担の回避 やAIによる審査のリスク

まとめと今後の展望

  • LLMの進化 により、 数学研究のハードルが上昇
  • 問題解決の難易度 が「人間が解けない」から「AIでも解けない」へとシフト
  • AI生成成果の認証・公開方法人間との協働のあり方 が新たな課題
  • 今後の数学研究・教育・出版の在り方 に大きな影響を与える可能性

参考リンク

Hackerたちの意見

約10年前にシアトルで開催されたAMS-MAA合同会議でティム・ガウアーズの講演を聞いたんだけど、彼は「100年後には人間が研究数学をやらなくなる」と予測してたんだ。彼のタイムラインは変わったのかな。あの時、私が思ったのは、数学の問題やアイデアを自分の理解で説明して、関連文献を探せる自然言語検索が欠けているってことだった。まるでMathOverflowみたいにね。

すごく長い投稿で、技術的(数学的)な部分と哲学的な部分が混ざってる。私が考えるに、反省すべき最も印象的なポイントはこれだと思う。 > 「博士課程の初めての学生に研究をさせるための訓練が、ますます難しくなっているように思う。なぜなら、誰かをスタートさせるための明らかな方法は、比較的優しい問題を与えることだからだ。もしLLMが『優しい問題』を解ける段階にあるなら、それはもはや選択肢ではない。」数学に貢献するための下限は、LLMが証明できない何かを証明することになるだろう。もちろん、訓練は基本から始めなきゃね。みんなの数学の訓練は、小さな整数を足すことから始まるけど、計算機はずっと前から間違いなくそれをやってる。さらに別のコメントがこの点を確認している。 > 「難しい問題を解くことで、少なくとも自分の専門分野において、問題解決プロセス自体についての洞察を得られる。もし他の人の解法を読むだけなら、そういう洞察は得られない。」これの一つの結果は、難しい問題を自分で解いた人は、AIの助けを借りて問題を解くのがかなり得意になる可能性が高いってことだ。優れたコーダーは、そうでないコーダーよりもコーディングのセンスがいいみたいに。人々はコーダーにお金を払って、彼らが使うものを作らせるし、私はAIを使って早く成果を出して、雇われ続けることができる。数学でも似たようなことがあるかは分からないけど。再度投稿からの引用 > 「もし数学者が、LLMとの長いやり取りを通じて大きな問題を解決したとしたら、数学者が有用な指導的役割を果たし、LLMがすべての技術的作業と主要なアイデアを持っていたとしたら、それを数学者の大きな業績と見なすだろうか?私はそうは思わない。」

でも、これを大きな成果と考えるべきかもしれないね。

「もし数学をする目的が、いわば不死を達成することなら、それがあまり長くは可能でないことを理解すべきだ。あなたに限らず、誰にとっても。」これを聞いてちょっと悲しくなった。

それをあらゆる人間の業績に当てはめてみて。

そんなにがっかりすることでもないと思う。偉大な数学者たちが不死を目指していたとは思えないし、ほとんどの人は(間接的な)実用的な応用を追求していたか、単に「ゲームの楽しさ」のために数学の美しさや知的な喜びを楽しんでいたんじゃないかな。AIが実用的な応用の部分を引き継ぐかもしれないけど、他の側面はまだまだ残ってるよ。

東欧のTCS助教授として、数学界の大物たちが高価で長時間考えるモデルに簡単にアクセスできるのをちょっと羨ましく思ってる。私の現在の学術予算からProを払うのは現実的じゃないし、予算は制限があってソフトウェアの支払いに使えるのはほんの少し。新しい助成金を申請しなきゃいけなくて、その助成金のルールが大きなソフトウェアの支払いを許可してくれるか、反AIの審査員に当たらないことを願うしかない。そんなの、少なくとも1年はかかるよ。さらに悪いことに、最近マイクロソフトがCopilotの個人(および学術)利用を制限したせいで、Claude Opusを「拒否」された。 (Chagpt 5.5 Plusでは新しい研究テーマを深く調査するには不十分だと思う、試してみたけど。) 愚痴を言ってごめんね。

これは、最も有利な立場にいる人たちが、常に報酬を得続ける典型的な例だよ。貧乏な人と金持ちがブーツを買う例を考えてみて。貧乏な人のブーツはすぐにダメになって交換しなきゃいけないけど、金持ちのブーツは高品質な職人技のおかげで何年も持つ。何年も経つうちに、貧乏な人のブーツ代がかさむんだ。

@NotOscarWilde、ここにメールアドレスを教えてくれたら、連絡するよ。5.5 Proのプロアカウントを数ヶ月間無料で試せるようにするから。

5.5 Proに聞いてほしいことを貼ってくれたら、返事を貼るよ。

あなたの愚痴、めっちゃわかる!大学がマイクロソフトと契約してるから、Proアカウントに月20€くらい払ってるんだけど、Copilotしか認識されてないから、自分の資金で他のものを払うのがすごく難しいんだよね。

私の大学では、みんな自分のポケットマネーでAIのサブスクリプションを払わなきゃいけなかったんだけど、最近共同のAIサービスが導入されたんだ。設置に2年かかって、今はgpt-oss-120bしか使えないから、みんなまだ他のサービスを使ってる。でも、少なくとも一部の管理者は大学のウェブサイトに「AI」って言葉を散りばめられるようになったし、「もうAIがあるから」って理由でAIのサブスクリプションのリクエストを拒否する口実もできたんだよね。

Hacker Newsで議論の続きを見る