世界を動かす技術を、日本語で。

DeepMindとOpenAIがICPCで金メダルを獲得

概要

  • OpenAIGoogle DeepMind がICPC WF 2025でAIモデルの金メダル級パフォーマンスを発表
  • 両社とも「I'm excited to announce/share」と題したツイートを5分差で投稿
  • OpenAIのモデルは全12問を解き、DeepMind(Gemini)は10問を解答
  • ICPC公式もこれを認めており、AIによる人間超えの歴史的瞬間
  • 結果の信頼性や環境条件、一般公開時期などに議論が集中

ICPC WF 2025でのAIの歴史的快挙

  • OpenAIGoogle DeepMind が同時期にICPC World Finals 2025でAIモデルの成果を発表
  • 両社のツイート(HengTze, MostafaRohani)が話題
  • OpenAI モデルは全12問を解答、 DeepMind (Gemini)は10問を解答
    • OpenAIは「ICPC oversight」下で全問題を解決
    • DeepMindは人間+Geminiチームで10問解答との見方も
  • ICPC公式サイトでも両社の成果を掲載
  • OpenAIの「全問正解」はAIが人間を超えた初のメジャーCP大会とされる

成果の詳細・議論点

  • OpenAIは11問を初回提出でAC、最後の1問のみ9回提出でAC
  • DeepMindは10問で17回提出
  • ICPCでは失敗テスト番号は非公開、判定はWA/TLE/ACのみ表示
  • AIによる「チート」や不正の可能性は低いと見られる
  • OpenAIは「特別なAIテスト環境」で実施、DeepMindは「本番ミラー環境」で実施
    • OpenAIの方が条件的に有利だったとの指摘
  • コストや一般公開の時期、モデルの最適化、再現性に関する議論が続く
  • 一部では「実験用モデル」や「アンサンブル利用」などの主張に懐疑的な反応も

競技プログラミング(CP)界隈の反応

  • 「Kasparov vs Deep Blue」の再来と例える声
  • AIの進化が人間のトップCPプレイヤーを超えたことへの驚きと危機感
  • IOIやAtCoderなど他大会との比較・評価
  • ICPCの提出制限やジャッジ方法の違いがAIに有利に働いた可能性
  • 「CodeJam復活を」など、AIの進化を歓迎しつつも人間主体の大会を求める声も

今後の展望・課題

  • AIモデルの一般公開時期や利用コストへの関心
  • 公開バージョン(GPT-5など)と実験バージョンの性能差
  • AIによる解答戦略(並列処理、テストケース推測など)の透明性
  • 人間とAIの共存、CP大会の今後のルール整備や運営方法の課題
  • 投資家向けアピールや「成果の正当性」への疑問も根強い

参考リンク

Hackerたちの意見

今年、SotAモデルはIMO、IoI、ICPCで金メダルを獲得して、最適化問題をテストしたあのatcoderのやつでは9/10の人間に勝ったんだよね。でも、最もリポストされてる見出しやレトリックは「壁だ」とか「停滞だ」とか「モデルの退化」とか「冬」とか「バブル」とか、もう終末的な感じばっかり。

AIにコードレビューを頼んだのは先週が最後だったんだけど、余計な行を追加して(妄想して)それをバグだってマークしてきたんだ。確かに、コーディングでは人間に勝ってるけど、すごいね!

2015年、SotAモデルは囲碁のエンジン性能で全ての期待を超えたけど、それがLLMベースのコードエージェントに繋がるまでに約7年かかったんだ(今でもその性能については議論があるし)。これが示してるのは、人間はコンピュータにとって「難しい」問題を理解するのがすごく苦手だってことだと思う。あるいは、タスクを難易度別にグループ化する方法が分からないってことかな(以前「難しい」とされてた分野での成功が、他の似たような難易度の分野でのパフォーマンスに必ずしも繋がるわけじゃない)。これらのモデルがコンテストでどれだけ優れたパフォーマンスを発揮するかは本当に印象的だし、特定の分野での高い可能性を示してるけど、これらのツールの効果をあまり構造化されていない問題空間で測るのは難しいかもしれない。数週間前にしたコメントを引用すると、>「IMOの文章問題は、歴史学のコーパスとはまったく異なる言語空間だという主張が見える気がする」。一つには、英語で表現されていても数学は非常に構造化されているから。用語の定義は完全にあいまいじゃないし、論理的な同語反復はほんの数トークンで表現できるし、などなど。こういうリッチな構造を柔軟なモデルクラスが学べるのは本当にすごいけど、チェスや他の構造化されたゲームで優れているのに近い気がする。歴史的な物語の合成のような曖昧なものとは違って。編集:あ、面白いことに、その引用したコメントは実はあなたへのレスだったんだよね :D

OpenAIがGPT-5でできることと、私がGPT-5でできることには明確な違いがある。先日、線形回帰を生成するためのコードを頼んだら、いくつかの点とそれを通る線の図を返してきた。もしGPT-5が主張通りICPCの全ての問題を解けるなら、どうやって再現できるかの指示を教えてほしい。

今年、SotAモデルはIMO、IoI、ICPCで金メダルを獲得した > でも、最もリポストされてる見出しやレトリックは「壁だ」とか「停滞だ」とか「モデルの退化」とか「冬」とか「バブル」とか、もう終末的な感じばっかり。これは高い量のトレーニングデータを使った狭いニッチでの結果で(みんなleetcodeからトレーニングデータを買ってる)、この結果は全体の産業タスクには必ずしも一般化できない。

サム・アルトマン自身も私たちがバブルにいると思っているみたいで、彼はここでの風向きをよく理解しているはず。ここでの矛盾は、これらのテストがスケールで実行するために必要な典型的なハードウェア制約の下で行われないことに起因していると思います。私が見た限りでは、これが大きな問題の一部です。2024年末、OpenAIはGPT-5を再考しなければならないと気づきました。最初の試みが運用コストが高すぎたからです。これがモデルのリリースを遅らせ、最終的にリリースされたときには、o3と比べて革命的な更新ではなく、せいぜい進化的なものでした。OpenAI自身が発表したベンチマークでは、o3に対して10%の向上が示されていましたが、それにどれだけの現金と1年以上の作業がかかったのかは神のみぞ知る。2023年や2024年にはそんな問題はなかったです。DeepSeekはR2のリリースを遅らせ、Mistralは5月に数週間前に予告したMistral 3 Largeのリリースを遅らせました。どちらからも何が起こっているのかの情報はありません。DSはHuaweiに移行するらしいですが、これが遅延の原因だとは思えません。パフォーマンスの問題とは無関係ではないでしょう。これらの出来事や公の発言を考えると、停滞やバブルについての憶測が出るのはむしろ自然です。個人的には、停滞という言葉が適切かどうかはわかりません。CodexやClaude Codeなど、LLMに関連するツールやプラットフォームの革新がたくさん見られます。これに関してはもっと進展があると思いますし、2026年にはLLM自体のコア改善よりも価値を提供するでしょう。バブルについては、確かに存在していると思いますが、主に市場が非常に熱いからです。AIが崩壊するからではなく、今はゴールドラッシュの時代で製品やサービスが多すぎるからバブルだと思います。企業は失敗するでしょうが、AIが突然私たちを裏切るからではなく、飽和状態になるからです。

まあ、いわゆる博士号レベルのモデルは、消費者のところに届くとまだまだバカだよね。どういうこと?

人々は、世界を非常に低解像度でパターンマッチしてる(web3/クリプト/NFTはバブルだった、だからAIもバブルに違いない!俺は賢い)けど、AIが根本的に違うことを理解できてないんだと思う。みんなAIがどれだけ大きな問題かは理解してるけど、いろんな理由でそれを受け入れたくない、少なくとも公に認めたくないんだよね。人間が無意味になることが一番怖い理由の一つだと思う。

私の意見は、ICPCのようなコーディングコンペティションでのパフォーマンスは、通常のソフトウェアエンジニアリングの仕事に必要なスキルセットとは全然違うってこと。GPT-5は、私の会社のレガシーコードベースを理解できないし、大学を出たばかりの新卒が1日か2日でできるような基本的なタスクでも無理なんだ。最近、壊れたテストを直してもらおうとしたら(私が1つのアサーションを変えたせいで)、テストスイート全体を削除して「成功」って言われたよ。

2日前、水管理の人とデータセンターについて話したんだけど、大手の一社が中規模の町と同じくらいの水を使うセンターを建てたいって言ってた。1週間前には、変圧器を調達するのに10年かかる変電所の話もあったし、その前は閉鎖された石炭火力発電所を買う話だった。モデルの能力にバブルがあるのかは分からないけど、物理経済が提供できるものには確実に限界が来てるよね。50年分のメンテナンスを3ヶ月で取り戻すのは無理だよ。

歴史的に見ると、テスト環境でのAIのパフォーマンスと実世界での影響の間にはギャップがあったから、何度かそのサイクルを経験した人たちは慎重に推測するんだ。2016年にジェフリー・ヒントンが、視覚モデルが5〜10年以内に放射線科医を仕事から追い出すだろうと言ってたけど、10年経った今、アメリカでは放射線科医が不足していて、AIは業界を変革していない。自動運転車のためのDARPAグランドチャレンジは2006年に勝利したけど、20年経った今でも自動運転車は限られた展開しかされていない。現実の世界は、コンピュータ科学者が思っているよりもずっと複雑なんだ。

どうやら、IOIでも金メダルを獲得したみたい。これは私にとって非常に驚きの結果で、現在のLLMに対する多くの前提を見直すきっかけになってる。残念ながら、その結果をどうやって得たのかについてはほとんど透明性がなく、唯一の情報源はTwitterの投稿だけだった。第三者の監視があったのか、どんな計算資源を使ったのか、どれくらいのパワーでどんなモデルを使ってどう設定したのかを知りたい。少なくともDeepMindはブログ投稿を持ってるけど、私の質問には答えてないみたい。これは大きなニュースだと思うし、こんな能力を持つモデルが世界中に大きな影響を与えることは想像できない。正直、ワクワクよりも心配の方が大きい。これが何に繋がるのか全然わからないから、そこが怖いんだよね。でも、これらの企業からの透明性がほとんどなく、コンテストで良い結果を出すための極端な財政的プレッシャーがあるから、これらの結果がどれだけ真実かにはかなり懐疑的にならざるを得ない。もし本当なら、本当に素晴らしいと思うけど、私の世界観を変える前にもっと確かな証拠が欲しいな。

人間の介入がなければ、具体的なことはあまり重要じゃないと思います。つまり、これは可能であり、時間が経てばこの能力は商品化されるということです。これは、特に「懐疑的」な人たちとの会話を構築するのに役立ちます。

これに対して懐疑的になる理由はあまりないと思う。基本的に、彼らのパフォーマンスのトレンドと一致しているからね。

ICPCのウェブページに行って、最初の問題(問題A)をダウンロードして、GPT-5にその問題を解くためのコードを頼んでみたんだ(最近の競技プログラミングコンテストからの問題だって言った)。7分53秒考えた結果、返ってきたのは「# プレースホルダー #」(解答なし)だった。

バグっぽいね。もう一度試した?(または別の最先端のモデルで)同じ結果になった?

  1. あなたのプロンプトは何だったの? 2. なぜGPT-5ではなくGPT-5 ThinkingやGPT-5 Proを使ったの?

例題の解答を見たいなら(まだ公式の審査で確認されてないけど):https://github.com/iGentAI/icpc-maestro-solutions-2025

これらのメガAI企業が、推論時にモデルを操作して非現実的に良い結果を出していることが明らかになってきてると思う。つまり、PRポイントを得るために、合理的なレベルを超えて計算資源を増やしているように見える。事実として、普通の人々はその種のパワーのほんの一部にもアクセスできないから、AIモデルが基本的なタスクすら完了できないという問題がよく報告されているんだ。今やこれは完全にマーケティングサーカスになってしまった(もしかしたら、これらの馬鹿げた億ドルの評価を正当化するために?)。

モデルの価格は毎年10倍下がる。私たち一般人がこういうモデルにアクセスできるのは時間の問題だね。

でも、もし彼らがその計算能力を使って科学や数学の進歩を生み出せるなら、コストが高くても価値があるよね。

2023年の最先端のトークンバーニングモンスターたちは、今の無料のLLMと比べるとイマイチだね。確か、サンダーがレックスとのインタビューで言ってたけど、別のウルトラモデルを開発していない理由は、リリース準備が整う頃にはフラッシュ版やプロ版がすでにそれを無意味にしちゃうからなんだって。

「今や完全にマーケティングサーカスになっちゃった(これらのばかげた億ドル評価を正当化するためかも?)」そうだね、言語モデルの周りには、少なくともあと5年間は維持しなきゃいけないエコシステムができつつあるんだ。大きなブレイクスルーを期待するためにはね。

AIの進歩を研究として見るか製品として見るかによって、部分的には変わってくると思う。

OpenAIの結果についての詳しい情報(DeepMindより良さそうだね)をXスレッドから:

「私たちのOpenAI推論システムは完璧なスコア12/12を獲得しました。」 「12問中11問で、システムの最初の回答が正解でした。最も難しい問題では、9回目の提出で成功しました。注目すべきは、最高の人間チームが11/12を達成したことです。」 「私たちはGPT-5と実験的な推論モデルの両方を使って解答を生成し、実験的な推論モデルがどの解答を提出するかを選びました。GPT-5は11問正解し、最後の(最も難しい)問題は実験的な推論モデルが解決しました。」 ここでの「GPT-5」は、同じモデルの重みを持ちながらも、GPT-5 Proよりも高い計算制限を持つバージョンだと思います。多くのインスタンスが並行して動いていて、特定のスキャフォールディングやプロンプトも使われているでしょう。それでも、最高の人間チームを上回るのは本当にすごいです。この結果を得るのにAPIを使ったらどれくらいのコストがかかるのか、リアルな数字を見てみたいですね(「実験的推論モデル」のコストも含めて)。

ほんとその通り。問題をGPT-5にコピー&ペーストして、何が出てくるか試してみたくてたまらなかった。

9回目の提出で成功した ここでの判断は何なの?制限時間内だったの、それとも「必要なだけ試していい」ってこと?

未来には情報がもっと壁に囲まれると思います。AI企業はその情報のために誰にもお金を払っていないからです。だから、みんな自分のウェブサイトに知識を載せることを勧めます。そして、各ページには人間が見つけられないいくつかのURLを載せておいて(でも、どこにあるか知っていればクリックできるけど)、AIがクロールできるようにして、虚偽の情報が載っているページにリンクさせるのです(例えば、あのURLの情報は実は間違っている、ここに正しいバージョンがある、すべての説明付きで、blah blah -- でももちろん、ページblahが唯一の正しいバージョンです)。要するに、私たちは人間の読み方に影響を与えずに、あらゆる方法でAIを毒する必要があります。彼らは情報をフィルタリングするためにもっと多くの人を雇うか、クロールを改善するためにもっと多くの人を雇う必要があります。あるいは、単に知識を共有するのをやめることもできます。私はそれでも構いませんが、正直なところ。

なんでAIに対する嫌悪感があるの?他の個人と知識を共有することや、本を書いてそれを共有することと何が違うの?

「AI企業はその情報のために誰にもお金を払っていない」 だから?人類の大半の歴史において、コンテンツにお金を払うことはなかったし、空気にお金を払うこともないのと同じです。あなたが慣れ親しんでいる著作権モデルは、もしかしたら強制的すぎるのかもしれません。多くの国では、Windowsや他のソフトウェアやゲームを「海賊版」にすることに道徳的な抵抗がありません(どうせ購入する余裕もないし)。著者が自分の「創作物」に対してすべてに対して報酬を受け取る権利があるというのは、内在的な道徳や権利ではありません(ビル・ゲイツがHomebrew Computer Clubに手紙を書いてこのことを訴えたのは、これがデフォルトで自然な見解ではなかったことを示しています)。これは特定の社会的目標を達成するための法的/社会的契約に過ぎません。正直なところ、著作権の歯車はインターネットの始まりから崩れ始めていて、LLMのせいではありません。

私は、AIの支配者たちからの科学と数学の進歩を歓迎するよ。

ICPCの一番の魅力は最初のC、つまり「カレッジ」の部分だね。3人で問題を解くけど、コンピュータは1台だけ。だから、誰がコーディング、考える、デバッグするかをうまく分担しないといけない。時間のプレッシャーがすごくて、まさにチームスポーツなんだ。チームメンバーの中にDvorakキーボードやviを好む人がいたら、余計に面白いよね。他のメンバーはそうじゃないのに。3つの異なるAIベンダーがどう協力するのか、ちょっと気になるな。多分、強化学習が次のレベルに進むかも。

クロード、ChatGPT、そしてジェミニがチームを組んだらどうなるんだろう。どう展開するかは分からないけど、彼らをお互いに話させると、すぐにすごく専門的な話になっちゃうよね。

実際、「collegiate」っていうのは、参加者が大学生であることを意味してるよ。

ICPC = 国際大学プログラミングコンテスト。これは大学レベルのプログラマーたちで、エリート競技プログラマーではないんだ。どうやらGeminiは、30分の「思考」時間を使って問題を解いたみたいだけど、どんなクラスタで動いてたのかは不明だし、Googleもそのコストを教えてくれなかったらしい。以前の大会参加者がこのArsClasicaのコメント欄で言ってたけど、毎年「時間の無駄」問題が1つあって、賢い人たちは他の問題を解決するまでそれを避けるんだって。これにはちょっと違った見方が必要かも。Googleが世界最高のプログラマーを出し抜いたわけじゃなくて、30分間、何のクラウドハードウェアで解決策を探して、大学生が時間がなくて手をつけられなかったことをやったってことだね。

以前にこのコンテストに参加したことがあるよ。おそらく、私たちが「エリート」と呼べる競技プログラマーよりも難しい問題が多いね。ちなみに、私のチームは最初の2ラウンドを通過しただけで、ここで自分のスキルを自慢するつもりはないよ :)

このコメントをブックマークして、来年また確認しよう。無料で使えるモデルが数ドルでできるようになっているかどうかを。

これらは大学生や時々大学院生のプログラマーで、ICPCワールドファイナルに出場する資格を得るために、地域選手権で十分に良い成績を収めた人たちだよ。実際のルールはここで読めるよ(「ICPCワールドファイナルへの進出」を参照): https://icpc.global/regionals/rules 「エリート」って何を指しているのかはわからないけど、ワールドファイナルには特に競争力のないチームもたくさんいるし、様々な理由で出場できないエリートプログラマーも多い(年齢が合わなかったり、学校の段階が違ったり、出場回数が多すぎたりね)。でも、勝つチームが本当にエリートでないとは信じがたいな。オリンピックやほとんどの学術オリンピックと比べてみて。オリンピックには勝者と全く競争力のない人やチームがたくさんいるから。

ICPCの世界決勝の問題は簡単じゃないよ。何を言ってるのか分からない。

ICPCにはたくさんのエリート競技プログラマーがいるよ。これは大学の頃に「ピーク」を迎える活動で、参加した後にずっとトレーニングを続ける人はあまりいないんだ。毎年、競技には複数の「レジェンダリーグランドマスター」がいるし、それはCodeforcesで3000以上のEloを持ってる人たちだよ。チェスのグランドマスターになるのと同じくらいのスキルや努力が必要だと思う。そこまでのレベルじゃなくても、みんなかなり優秀だよ。平均的なICPC参加者は、合理的な「賢さ」の基準で見ると、平均的なMITやハーバードのCSの学生よりも「賢い」可能性が高いね。

ICPC = 国際大学プログラミングコンテスト。これは大学レベルのプログラマーで、エリート競技プログラマーではないよ。ICPCのファイナリストは、競技プログラマーの中でも世界のエリートに入るんだ。

ちょっと考えてみたんだけど、私の意見は少し変わってるかも。まず、これは本当にすごいよね。次に、これを置いておいて、これらのモデルは人間の参加者と同じゲームをしてない、少なくとも2つの大きな点で。まず、明らかに、彼らは膨大な計算能力を持ってる。これは、人間のチームに5時間ではなく1週間を与えるようなものだよね。でも、競争しているモデルは記憶力がすごくて、チームは25ページのPDFを持ち込むことができるけど、実際に使いたい部分は手動で写さないといけない。もし私に、コンテスト前のインターネットを検索する能力と1週間の準備時間を与えたら、金メダルを取れなかったらちょっと恥ずかしいし、実際のコンテストの方がずっと面白いと思うだろうな。

もし私にコンテスト前のインターネットを検索する能力と、提出物を準備するための1週間を与えてくれたら、金メダルを取れなかったらちょっと恥ずかしいなと思うし、実際のことに比べてコンテストはあまり面白くないと感じるだろうね。君の競技プログラミングの経験は知らないから、君の言うことは君自身には当てはまるかもしれないけど、ほとんどのプログラマーやソフトウェアエンジニアには当てはまらないって自信を持って言えるよ。IMOの問題をたくさんのトレーニングや練習なしに解こうとするのと同じように、ICPCの中〜難易度の問題は、平均的なコンピュータサイエンスの学生(それでも平均的なソフトウェアエンジニアよりはマシだけど)には、1週間でアプローチするのは完全に無理だよ。LLMがたくさんのことを覚えているのと同じように、ICPCで金メダルを取れるトップ競技者たちは、アルゴリズムやデータ構造を極めて知っていて、それを問題にパターンマッチさせる能力も半端じゃないんだ。

どれだけのインスタンスが動いていたかは関係ないよ。重要なのは、実際の時間とコストだけ。コストを公表しないってことは、今のところはかなり高いってことのヒントだね。でもコストはどんどん下がってきてるし、こういう人たちを雇うのも安くはないよ。

そのゲームをやりたいなら、彼らが生まれてから20年間にわたって成長させ、住まわせ、教育するのにどれだけのエネルギーが使われたかを計算してみよう。それをモデルのトレーニングにかかったコストと比べてみて。

君の評価は的を射てると思う。でも、君のコメントだけじゃなくて、AIの進展に関する一般的な議論の中で、見落とされている大きな絵があると思うんだ。 - 現在、以前はその分野のトップ1%の専門家しか解決できなかった多くのタスクを解決する能力が開放されつつある。 - ほとんどの進展は大規模な深層学習から来ている。自己回帰と強化学習を組み合わせたトランスフォーマーは、非常に汎用的な能力を持っている(ただし、AGIにはまだ遠いけど)。これが平均的な人がこの規模のモデルをいじれるくらい安くなれば、すべての工学分野が自分たちのニッチな興味に応用できるようになる。結局のところ、これらのコンペティション以外で人間と同じルールでプレイしているかどうかは誰も気にしない。彼らが望むのは、あなたが彼らを裕福で健康で快適にしてくれることだけなんだ。

あなたの例えはちょっと足りないと思う。人間の脳はもっと効率的だから、「人間のチームに5時間じゃなくて1週間を与える」って言うのは正しくないよ。おそらく、OpenAIの計算能力全体が一つの脳の接続や関係、計算力には敵わないと思う。

まず、車は本当にすごいよね。次に、それを置いといて、これらの車は馬とは同じゲームをしてない…まず、明らかにものすごい馬力があるし、これは馬のチームにもっと多くの馬を与えるようなものだよ。でも、車は燃料タンクの容量もすごく大きい。ガソリンは干し草と比べて化学エネルギーの効率的な貯蔵方法だし、車はそれを何ガロンも蓄えられる。もし私の馬に300頭分の力を与えて、純粋なガソリンを与えたら、レースに勝てなかったらちょっと恥ずかしいかも。

人間のチームは、3人で1台のコンピュータを共有する制限があるんだ。一方で、モデルは実質的に無限のコンピュータにアクセスできる。俺の主張は、あの「Watsonは物理的にボタンを押す必要がない」っていうのと似た感じがする。多分、近い将来、高性能なMacで5時間あれば十分な計算能力があると思う。

チームは25ページのPDFを持ち込むことが許可されている ここが一番の問題だと思う。LLMはまず第一にテキスト圧縮アルゴリズムだからね。人間の文章のかなり良い部分を圧縮したバージョンを持ってる。テキスト圧縮エンジンとして、LLMはロスのある圧縮によって引き起こされる一般化に基づいてテキストを補完するのが得意なんだ。この結果が示しているのは、適切に圧縮された人間の知識のコーパスがあれば、ICPCは補完タスクとして見ることができるってことだね。

約10年前にICPCの決勝に出た者として、限られた時間が本当に大きな問題だってことに同意するよ。機械学習モデルはその点を同じように体験してないからね。とはいえ、これらの問題は難しいけど、アルゴリズムの実装自体は結構簡単なんだ(決勝に進む頃には、ほとんどの質問で何度も実装したアルゴリズムのうちの一つを使うから)。でも、どれが実際に問題を正しく解決するかを見極めるのは全然明らかじゃない。学部のアルゴリズムの授業で苦労した人がたくさんいるけど、ICPCの決勝の問題を与えられたら、調べることができても苦労すると思うよ。

それは、この話題(例えばIMOのパフォーマンスに関する話)についての枠組みがちょっと間違っているからだと思う。人間の競技者と比べて金メダルを取れることが面白いわけじゃないよね。君が言うように、直接の比較は、完全に無意味ではないけど、最良のケースでも解釈が難しい。まさにリンゴとオレンジの比較みたいなもんだ。むしろ、AIがこれらの問題を解決できること自体がすごいんだよ。これは新しい(つまりトレーニングセットには含まれていない)問題で、ほとんどのプロのプログラマーでも難しいものなんだ。金メダルの部分は、AIがどれだけの問題を解決できたか、どれだけうまくできたかを示す情報として重要なんだ。数年前に友達とChatGPTについて話してたとき、こんな新しい、非常に難しい推論問題を解決できる技術なんて絶対無理だと思ってたのに、あっという間に間違ってたことが証明されたのは驚きだよ。

これはすごいね。2025年のICPC世界決勝の問題セットが公開されたよ。「制限時間:X秒」って各問題に書いてあるのは、プログラムが許可されている最大の実行時間なんだ。もしプログラムの実行がそれ以上かかると、他の実行が時間内に終わっても提出は失敗になるよ。 https://worldfinals.icpc.global/problems/2025/finals/problem...