世界を動かす技術を、日本語で。

DeepMindとOpenAIがICPCで金メダルを獲得

2025年9月18日原文(codeforces.com)

概要

  • OpenAIGoogle DeepMind がICPC WF 2025でAIモデルの金メダル級パフォーマンスを発表
  • 両社とも「I'm excited to announce/share」と題したツイートを5分差で投稿
  • OpenAIのモデルは全12問を解き、DeepMind(Gemini)は10問を解答
  • ICPC公式もこれを認めており、AIによる人間超えの歴史的瞬間
  • 結果の信頼性や環境条件、一般公開時期などに議論が集中

ICPC WF 2025でのAIの歴史的快挙

  • OpenAIGoogle DeepMind が同時期にICPC World Finals 2025でAIモデルの成果を発表
  • 両社のツイート(HengTze, MostafaRohani)が話題
  • OpenAI モデルは全12問を解答、 DeepMind (Gemini)は10問を解答
    • OpenAIは「ICPC oversight」下で全問題を解決
    • DeepMindは人間+Geminiチームで10問解答との見方も
  • ICPC公式サイトでも両社の成果を掲載
  • OpenAIの「全問正解」はAIが人間を超えた初のメジャーCP大会とされる

成果の詳細・議論点

  • OpenAIは11問を初回提出でAC、最後の1問のみ9回提出でAC
  • DeepMindは10問で17回提出
  • ICPCでは失敗テスト番号は非公開、判定はWA/TLE/ACのみ表示
  • AIによる「チート」や不正の可能性は低いと見られる
  • OpenAIは「特別なAIテスト環境」で実施、DeepMindは「本番ミラー環境」で実施
    • OpenAIの方が条件的に有利だったとの指摘
  • コストや一般公開の時期、モデルの最適化、再現性に関する議論が続く
  • 一部では「実験用モデル」や「アンサンブル利用」などの主張に懐疑的な反応も

競技プログラミング(CP)界隈の反応

  • 「Kasparov vs Deep Blue」の再来と例える声
  • AIの進化が人間のトップCPプレイヤーを超えたことへの驚きと危機感
  • IOIやAtCoderなど他大会との比較・評価
  • ICPCの提出制限やジャッジ方法の違いがAIに有利に働いた可能性
  • 「CodeJam復活を」など、AIの進化を歓迎しつつも人間主体の大会を求める声も

今後の展望・課題

  • AIモデルの一般公開時期や利用コストへの関心
  • 公開バージョン(GPT-5など)と実験バージョンの性能差
  • AIによる解答戦略(並列処理、テストケース推測など)の透明性
  • 人間とAIの共存、CP大会の今後のルール整備や運営方法の課題
  • 投資家向けアピールや「成果の正当性」への疑問も根強い

参考リンク

Hackerたちの意見

今年、SotAモデルはIMO、IoI、ICPCで金メダルを獲得して、最適化問題をテストしたあのatcoderのやつでは9/10の人間に勝ったんだよね。でも、最もリポストされてる見出しやレトリックは「壁だ」とか「停滞だ」とか「モデルの退化」とか「冬」とか「バブル」とか、もう終末的な感じばっかり。

AIにコードレビューを頼んだのは先週が最後だったんだけど、余計な行を追加して(妄想して)それをバグだってマークしてきたんだ。確かに、コーディングでは人間に勝ってるけど、すごいね!

2015年、SotAモデルは囲碁のエンジン性能で全ての期待を超えたけど、それがLLMベースのコードエージェントに繋がるまでに約7年かかったんだ(今でもその性能については議論があるし)。これが示してるのは、人間はコンピュータにとって「難しい」問題を理解するのがすごく苦手だってことだと思う。あるいは、タスクを難易度別にグループ化する方法が分からないってことかな(以前「難しい」とされてた分野での成功が、他の似たような難易度の分野でのパフォーマンスに必ずしも繋がるわけじゃない)。これらのモデルがコンテストでどれだけ優れたパフォーマンスを発揮するかは本当に印象的だし、特定の分野での高い可能性を示してるけど、これらのツールの効果をあまり構造化されていない問題空間で測るのは難しいかもしれない。数週間前にしたコメントを引用すると、>「IMOの文章問題は、歴史学のコーパスとはまったく異なる言語空間だという主張が見える気がする」。一つには、英語で表現されていても数学は非常に構造化されているから。用語の定義は完全にあいまいじゃないし、論理的な同語反復はほんの数トークンで表現できるし、などなど。こういうリッチな構造を柔軟なモデルクラスが学べるのは本当にすごいけど、チェスや他の構造化されたゲームで優れているのに近い気がする。歴史的な物語の合成のような曖昧なものとは違って。編集:あ、面白いことに、その引用したコメントは実はあなたへのレスだったんだよね :D

OpenAIがGPT-5でできることと、私がGPT-5でできることには明確な違いがある。先日、線形回帰を生成するためのコードを頼んだら、いくつかの点とそれを通る線の図を返してきた。もしGPT-5が主張通りICPCの全ての問題を解けるなら、どうやって再現できるかの指示を教えてほしい。

今年、SotAモデルはIMO、IoI、ICPCで金メダルを獲得した > でも、最もリポストされてる見出しやレトリックは「壁だ」とか「停滞だ」とか「モデルの退化」とか「冬」とか「バブル」とか、もう終末的な感じばっかり。これは高い量のトレーニングデータを使った狭いニッチでの結果で(みんなleetcodeからトレーニングデータを買ってる)、この結果は全体の産業タスクには必ずしも一般化できない。

サム・アルトマン自身も私たちがバブルにいると思っているみたいで、彼はここでの風向きをよく理解しているはず。ここでの矛盾は、これらのテストがスケールで実行するために必要な典型的なハードウェア制約の下で行われないことに起因していると思います。私が見た限りでは、これが大きな問題の一部です。2024年末、OpenAIはGPT-5を再考しなければならないと気づきました。最初の試みが運用コストが高すぎたからです。これがモデルのリリースを遅らせ、最終的にリリースされたときには、o3と比べて革命的な更新ではなく、せいぜい進化的なものでした。OpenAI自身が発表したベンチマークでは、o3に対して10%の向上が示されていましたが、それにどれだけの現金と1年以上の作業がかかったのかは神のみぞ知る。2023年や2024年にはそんな問題はなかったです。DeepSeekはR2のリリースを遅らせ、Mistralは5月に数週間前に予告したMistral 3 Largeのリリースを遅らせました。どちらからも何が起こっているのかの情報はありません。DSはHuaweiに移行するらしいですが、これが遅延の原因だとは思えません。パフォーマンスの問題とは無関係ではないでしょう。これらの出来事や公の発言を考えると、停滞やバブルについての憶測が出るのはむしろ自然です。個人的には、停滞という言葉が適切かどうかはわかりません。CodexやClaude Codeなど、LLMに関連するツールやプラットフォームの革新がたくさん見られます。これに関してはもっと進展があると思いますし、2026年にはLLM自体のコア改善よりも価値を提供するでしょう。バブルについては、確かに存在していると思いますが、主に市場が非常に熱いからです。AIが崩壊するからではなく、今はゴールドラッシュの時代で製品やサービスが多すぎるからバブルだと思います。企業は失敗するでしょうが、AIが突然私たちを裏切るからではなく、飽和状態になるからです。

まあ、いわゆる博士号レベルのモデルは、消費者のところに届くとまだまだバカだよね。どういうこと?

人々は、世界を非常に低解像度でパターンマッチしてる(web3/クリプト/NFTはバブルだった、だからAIもバブルに違いない!俺は賢い)けど、AIが根本的に違うことを理解できてないんだと思う。みんなAIがどれだけ大きな問題かは理解してるけど、いろんな理由でそれを受け入れたくない、少なくとも公に認めたくないんだよね。人間が無意味になることが一番怖い理由の一つだと思う。

私の意見は、ICPCのようなコーディングコンペティションでのパフォーマンスは、通常のソフトウェアエンジニアリングの仕事に必要なスキルセットとは全然違うってこと。GPT-5は、私の会社のレガシーコードベースを理解できないし、大学を出たばかりの新卒が1日か2日でできるような基本的なタスクでも無理なんだ。最近、壊れたテストを直してもらおうとしたら(私が1つのアサーションを変えたせいで)、テストスイート全体を削除して「成功」って言われたよ。

2日前、水管理の人とデータセンターについて話したんだけど、大手の一社が中規模の町と同じくらいの水を使うセンターを建てたいって言ってた。1週間前には、変圧器を調達するのに10年かかる変電所の話もあったし、その前は閉鎖された石炭火力発電所を買う話だった。モデルの能力にバブルがあるのかは分からないけど、物理経済が提供できるものには確実に限界が来てるよね。50年分のメンテナンスを3ヶ月で取り戻すのは無理だよ。

歴史的に見ると、テスト環境でのAIのパフォーマンスと実世界での影響の間にはギャップがあったから、何度かそのサイクルを経験した人たちは慎重に推測するんだ。2016年にジェフリー・ヒントンが、視覚モデルが5〜10年以内に放射線科医を仕事から追い出すだろうと言ってたけど、10年経った今、アメリカでは放射線科医が不足していて、AIは業界を変革していない。自動運転車のためのDARPAグランドチャレンジは2006年に勝利したけど、20年経った今でも自動運転車は限られた展開しかされていない。現実の世界は、コンピュータ科学者が思っているよりもずっと複雑なんだ。

どうやら、IOIでも金メダルを獲得したみたい。これは私にとって非常に驚きの結果で、現在のLLMに対する多くの前提を見直すきっかけになってる。残念ながら、その結果をどうやって得たのかについてはほとんど透明性がなく、唯一の情報源はTwitterの投稿だけだった。第三者の監視があったのか、どんな計算資源を使ったのか、どれくらいのパワーでどんなモデルを使ってどう設定したのかを知りたい。少なくともDeepMindはブログ投稿を持ってるけど、私の質問には答えてないみたい。これは大きなニュースだと思うし、こんな能力を持つモデルが世界中に大きな影響を与えることは想像できない。正直、ワクワクよりも心配の方が大きい。これが何に繋がるのか全然わからないから、そこが怖いんだよね。でも、これらの企業からの透明性がほとんどなく、コンテストで良い結果を出すための極端な財政的プレッシャーがあるから、これらの結果がどれだけ真実かにはかなり懐疑的にならざるを得ない。もし本当なら、本当に素晴らしいと思うけど、私の世界観を変える前にもっと確かな証拠が欲しいな。

Hacker Newsで議論の続きを見る