世界を動かす技術を、日本語で。

OpenAIの研究者が発表したGPT-5の数学的ブレークスルーは実現しなかった

概要

OpenAIの研究者がGPT-5による数学的ブレークスルーを主張したが、誤りだと判明し批判を受けた事件。 実際にはGPT-5は既存研究を見つけただけで、新規の証明はなかった。 DeepmindやMetaの著名人もこの誤報を批判。 AIの現状の価値は「文献調査の効率化」にあると専門家は指摘。 本件はAI研究の過剰な期待と現実のギャップを浮き彫りにした。

OpenAIの「数学的ブレークスルー」騒動

  • OpenAIの研究者が GPT-5 による「未解決のErdős問題10件の解決」を主張
  • 問題は「何十年も未解決」と誤って表現され、 独自証明の発見 と誤解を招く内容
  • 実際には 既存の研究 を見つけただけで、新規の証明や解決はなし
  • erdosproblems.com運営者の数学者 Thomas Bloom が即座に訂正
  • 「open」とは「自分が解法を知らない」だけで「未解決問題」ではない旨を説明
  • Deepmind CEOの Demis Hassabis やMeta AIの Yann LeCun も誇張を批判
  • 元の投稿は削除され、OpenAI研究者も誤りを認める対応
  • AI分野の 過剰な宣伝 や、事実確認の甘さが改めて問題視

AIの数学研究への実際の貢献

  • GPT-5 の本来の価値は「学術文献の調査補助」への活用
  • 用語や文献が分散している分野で 関連論文の探索 に役立つ
  • 数学者 Terence Tao も「AIは難問の独自解決よりも、文献調査の効率化が現実的な利点」と評価
  • AIによる数学研究の「産業化」や進展の加速への期待
  • ただし 人間の専門家による検証・分類・統合 は不可欠

AI研究における誤報と信頼性の課題

  • AI業界の「 過剰な期待」と「 現実とのギャップ」の顕在化
  • 研究者による 事実確認不足 や、誤解を招く表現のリスク
  • 数十億ドル規模の投資が集まる中、 正確な情報発信 の重要性
  • 今後もAIの進化とともに「 成果の正確な評価」が求められる状況

Hackerたちの意見

数百億ドル規模の循環金融スキームが発覚した後、AIビジネスやその人工的な誇大広告について読んだことは、もう何も驚かなくなった。

人間がAIについて幻覚を見てる。

人間はAI的な方法で「幻覚」を見てることが多いから、LLMが人間を置き換えることに対して彼らが障害になるとは思わない。人間が何かを作り上げたり、知らないことがあるのは全然珍しくないからね。

最良のケース: 幻覚 最悪のケース(もっとありそうな方): 嘘

「OpenAIの研究者がGPT-5の数学的ブレークスルーを幻覚する」なんて、The Onionの見出しみたいだね。

へへ、株主たちは幻覚なんか見てないよ。彼らは自分たちが何をしているかをよく知ってる。

最近のAIは、人間が投げかけるどんなバカなアイデアでもお世辞を言って褒めるから、人間がブレークスルーを幻覚するのを助長してる。でも、AIがプロンプトエンジニアリングが上手くなるのも時間の問題だよね。/s?

人間がAIについて妄想してるって感じだね、ここを見てみて: https://news.ycombinator.com/item?id=45634120

自分たちが作り出した嘘を本気で信じ始めたんだね。

この事件の悲しい真実は、OpenAIが実際に未解決の数学問題に取り組む真剣な努力をしていないことを明らかにしていることだ。

どういうこと?ロクでもない社員が間違ったことを発表しても、あんまり信用できないよね。

それは全然関係ない話だね。彼らはかなり大きな組織だから、いろんな方向に進んでる研究サブチームがいくつもあるんじゃないかな。

広告やポルノへの方向転換を発表した時に、もうダメだと思った。市場はまだ気づいてないけど。

DeepMindの一見正当なAI支援のがん治療のブレイクスルーと同じ週にこれが起きるのは、OpenAIにとって驚くほど悪い印象だね。うちの上司はいつも「新しいポリシーを作る必要がないようにしよう」って言ってたけど、OpenAIもこれから新しい公的コミュニケーションポリシーが必要になるんじゃないかな。

OpenAIチームに対して公平に言うと、文脈を考慮すれば状況はせいぜいあいまいだよ。記事で言及されている削除されたツイートには「GPT-5が10個の未解決のエルデシュ問題の解決策を見つけて、さらに11個に進展した」と書いてあった。もしこれが単独で投稿されていたら、確かに誤解を招くと思うけど、そうではなかったんだ。これはこれに対する引用ツイートだった: https://x.com/MarkSellke/status/1979226538059931886?t=OigN6t...、著者が「これをさらに進めている」と言ってる。問題の「これ」は、次のツイートが引用しているものだ: https://x.com/SebastienBubeck/status/1977181716457701775?t=T... -- ここで著者は「gpt5-proは文献検索が超人的だ: [...] 実は20年前に解決されていたエルデシュ問題#339を解決した」と言ってる。スレッドを順番に読むと、* SebastienBubeck: 「GPT-5は文献検索が本当に得意で、既存の解決策を見つけて一見未解決の問題を『解決』した」 * MarkSellke: 「今、さらに10個解決した」 * kevinweil: 「これまでのクールな成果を見て!」 ここでの問題は引用ツイートの仕組みだと思う。引用された投稿しか見えないから、元の投稿が何を引用しているかはわからない。Kevin Weilは投稿する時に前の2つの引用を考慮していたけど、読者は最初のレベルしか見ないから、Sebastien Bubekの投稿を思い出さないんだ。それは誰でもやりがちな簡単なミスだと思うし、叩かれるのはちょっと不公平だね。

最初の人が「実際には20年前に解決されていたことに気づいて解決した」と言って、次の人が「10個の以前は未解決だったエルデシュ問題の解決策を見つけた」と言ったんだよね。未解決だったって言っても、文脈的にそれは正しくないよね?

ケビン・ワイルは、自分の投稿の時にこの2つの引用を文脈に入れていたけど、読者が最初のレベルしか見ないことを考慮していなかったから、セバスチャン・ブベックの投稿を頭に置いていなかったんだ。いや、ワイルは自分がセルケの投稿を誤解したと言ってるよ[1]。ワイルの言い回し(10個の未解決エルデシュ問題)とセルケの言い回し(オープンとしてリストされた10個のエルデシュ問題)に注目してね。[1] https://x.com/kevinweil/status/1979270343941591525

「GPT-5は文献検索が得意で、既存の解決策を見つけてオープンな問題を『解決』した」って。サバイバー・バイアスだね。GPT-5は比較的簡単な検索でも失敗することがあるって保証するよ。結果がどうなるかをしっかり把握して、テストする能力がないと、GPT-5の結果は使えないんだ。もしサイコロを1000回振って、毎回ダブルシックスが出たって投稿したら、俺は最高のサイコロ使いってことになるの?

これって、大手の研究所による2回目の失敗だと思っていいのかな?ディープマインドが数ヶ月前に「マトリックスの掛け算がSOTAよりも優れている」という論文を発表したけど、ジェミニが従来の方法よりも少ないステップで最適に2つのマトリックスを掛け算する新しい方法を発見したって言ってたよね。その発表の直後に、数学者たちがその新たに発見されたSOTAが30〜40年前から文献にあったことを指摘して、ほぼ確実にジェミニのトレーニングセットに含まれていたって。

GPT-5は文献レビューアシスタントとして役立っている いや、全然役立ってないよ。すごく説得力のある偽物を作るだけ。出力に満足している人がいるのは正直嬉しいけど、彼らの方がずっと楽だよね。明らかに、機械は私を個人的に差別してる。70年代から80年代に作られた工学関連の数学を探すために図書館で何時間も過ごして、最後の手段としてチャットで賭けをすることにしたら、何か小さな手がかりを得られることを期待するんだ。そしてその後の数時間は、チャットの出力に何が間違っているのかを理解しようとする。ほとんどの場合、「それは単純にありえない」と感じるし、私だけじゃないってわかってる。

これ、理解するのが難しいな。要するに、(1) 現代のインターネットで見つかる参考資料に偏っていて、昔の文献をレビューするにはあまり役立たないのか、(2) 具体的な解決策を提供しているけど、それに懐疑的なのか?

文献を深く掘り下げる経験から言うと、約50%の確率でソースを幻覚するんだ。(高レベルの文献調査では、たぶん5%くらい。)残りの50%の中で、知っているソースと知らないソースがほぼ均等に分かれていることが多い。だから、Google Scholarを使っても見つけられなかった論文を見つけるのにすごく役立つんだ。特に、並行するサブフィールドでの関連研究を見つけるのに便利だよ。例えば、物理学をやっているけど数学の結果があったり、政治学をやっているけど人類学の関連研究があったりする場合ね。それに、あまり知られていないものも見つかる。出版されていないランダムな論文とか、PDFがオンラインにあって、関連性があることがわかったり。結果の75%が自分にとって役に立たないか幻覚だとしても、それは数分の無駄に過ぎない。残りの25%はそれを補って余りあるよ。そういうのは、他では絶対に見つけられないかもしれないものだから。

役に立たないって言うのはちょっと言い過ぎかな。数分で50万語を検索して、各ポイントの要約や答え、出典を返してくれるんだから。要約を盲目的に信じるべき?いや、そうじゃない。重要な主張は出典をクリックして確認すべき?うん、そうだね。それでも、検索ツールや生産性を上げるためにはめちゃくちゃ役立つよ。

文献レビュー用のツールに興味があるなら、大学院の友達のために作った公開のツールがあるよ。これは階層的混合モデルを使って、大量の検索や引用ネットワークを整理するんだ。例: https://platform.sturdystatistics.com/deepdive?search_type=e...

なんか、新聞を読むときの原則があって、名前は忘れたけど、みんな自分が知ってるテーマについて読むと、すぐに穴や間違いを見つけるんだよね。「これがどうして出版されたんだ?」って思ったり。でも次のページをめくると、自分が専門じゃない話を読んで、そのまま何も疑わずに受け入れちゃう。ChatGPTに対しても似たような関係があるかもしれないね。

GPT-5やそれに似たものを使おうとしてる人たちの中で、検索や文献レビューの用途に関しては、実際にすごく強力なセマンティック検索エンジンの方がよっぽど良いんじゃないかって思うんだ。チャットボットに文献を要約させたり質問に答えさせたりすると、ハルシネーションが起きて信頼できない答えを返すリスクがあるからね。対照的に、LLM生成の埋め込みを使って文書を取得するのは、ハルシネーションのリスクがないし、GoogleやBingなどの現在のアルゴリズムでは見つけられないものを取得する強力な方法かもしれない。こういうのがすでに存在するのか、僕が知らないだけなのかは分からないけど。

そんな主張をするなら、少なくともその情報がトレーニングデータに含まれていなかった証拠が必要だよね。

「自分の供給でハイにならない」ってどうなったんだ?

いや、これマジでソープだわ!!! https://www.youtube.com/watch?v=RvGE-xhroy0 [2回おしっこ飲む]

OpenAIの社員がこういう風に(マーケティング的に)表現するように言われてるんじゃないかなって思う。GPT-5が何かを「解決した」って言うのはこれが初めてじゃないしね。最近、GPT-5が解けるのはちょっとしたオープンな数学の問題だけだってことが明らかになってきてる。良いPhD学生が1日か数日かけて解くような問題ね。もちろん、100%の保証はないけど、例えば下の方ではGPT-5が5つの最適化の予想のうち3つを解決してる。個人的には、この影響がまだ十分に理解されてないと思う。