世界を動かす技術を、日本語で。

GPT-5.5 Codexの推論トークンクラスタリングがパフォーマンスの低下を引き起こしている可能性がある

2026年7月5日原文(github.com)

概要

Codexのtoken_countメタデータから、 gpt-5.5 モデルの応答が 516 reasoning_output_tokens で異常に集中するパターンを観測。 この現象は gpt-5.5固有 で、 1034や1552 にも類似のスパイクが見られる。 全体的な推論トークン使用量は 減少傾向 であり、複雑なタスクでの性能低下と関連。 この現象は #29353 の既知問題とも関連。 本件は モデル内部の閾値的な動作 を示唆。

Codexにおけるgpt-5.5の推論トークンクラスタリング異常

  • 調査対象

    • プロダクト: Codex
    • 主な影響モデル: gpt-5.5
    • データソース: token_countメタデータ
    • 対象期間: 2026年2月1日~6月27日(UTC)
    • 関連Issue: #29353(gpt-5.5の516トークン短絡現象)
  • 主要な観測結果

    • 516 reasoning_output_tokens での応答が gpt-5.5 に特異的に多発
    • 1034, 1552 にも固定値スパイク
    • gpt-5.5 は全応答の 19.3% だが、 exact-516イベントの82.0% を占有
    • gpt-5.5のexact-516 / >=516比率:44.0%
    • 他モデル(gpt-5.2, gpt-5.4, codex系)はこの現象がほぼ皆無
  • モデル別の詳細データ

    • gpt-5.5 :75,401件中44.0%がexact-516
    • gpt-5.4 :25,214件中19.8%
    • gpt-5.2 :247,575件中0.34%
    • gpt-5.3-codexgpt-5.3-codex-spark :0.0%
  • 月次推移(exact-516クラスタリングの増加)

    • 2026年2月:0.11%
    • 2026年3月:2.45%
    • 2026年4月:4.25%
    • 2026年5月:53.30%
    • 2026年6月:35.84%
  • 推論トークン強度の推移(平均・P90)

    • 2月:平均268.1/P90=772
    • 3月:平均256.8/P90=723
    • 4月:平均228.7/P90=669
    • 5月:平均106.9/P90=344
    • 6月:平均168.5/P90=515
  • 疑わしい点

    • 全体の推論トークン数は 減少 しているのに、 exact-516クラスタリング が急増
    • gpt-5.5 のみで顕著。他モデルではほぼ発生せず
    • 516, 1034, 1552 など 不自然な固定値 でのスパイク
    • 自然なタスク難易度分布 ならこのようなクラスタリングは起きないはず
  • 期待される挙動

    • 複雑なCodexタスクでは 推論トークン数がタスクごとに自然分布 すること
    • 1モデルだけ極端に 特定値でクラスタリング しないこと
  • 実際の挙動

    • gpt-5.5 では exact-516 での応答集中が顕著
    • 1034, 1552 でも類似スパイク
    • 他モデルではこの現象が弱い、または存在しない

Codexチームへの要望・検証案

  • gpt-5.5推論バジェット・ルーティング・トランケーション・フォールバック・スケジューラー 等による 516/1034/1552付近での強制終了 が発生していないか調査要請

  • exact-516通常の停止点・バジェット上限・デグレードティア・内部閾値 等を示すか確認要請

  • 内部検証チェック例

    • reasoning_output_tokensごとの token_countイベント をモデル別にクエリ
    • 0, 516, 1034, 1552 のexact値カウント比較
    • count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516) をモデル・日次で算出
    • gpt-5.5gpt-5.2, gpt-5.4, codex系 で比較
    • 複雑タスクを gpt-5.2・gpt-5.5 で再実行し、 exact-516応答と長文応答 で品質評価分離

結論

  • gpt-5.5 固有の 推論トークンクラスタリング異常 が観測され、 内部閾値的な動作 の可能性
  • 複雑・高難度タスクでの 性能劣化 とも関連
  • モデル仕様の再確認・追加検証 が必要

Hackerたちの意見

確かに、質の低下をほぼ毎日のように体験してる。普段はxhighを使ってたけど、今年の初めにCodexの素晴らしいコーディングに頼ってた経験が消えちゃった。今は、すごくバカな実装を時々見かけるし、OpenAIがこの問題を真剣に受け止めるまでClaudeに切り替えたよ。私が見ている限り、数ヶ月間、彼らはこの問題を真剣に考えてないみたい。

3ヶ月前にCodexに切り替えたんだけど、Claudeがすごくバカになったから。6ヶ月前はその逆だった。CodexでもClaudeでも、どっちを使っても、いつかは問題が起きるよ。ただ、Codexの方が多分少ないかな。

こういう問題は技術的なものだとは思わない。パフォーマンスを下げるのはビジネス上の決定で、修正するのにはお金がかかるから、十分に支払ってないってことだよ。

6月初めから、5.5の信頼性がクラウドレベルに落ちてきたのを感じてる。私の体験では、5.5の高から5.5の超高、そして5.4の高に移行してきた。5.4の高はここ3週間ずっと信頼できてて、満足してるよ。たまに5.5の超高でタスクを試して、100%完璧に戻ったか確認するけど、今のところは5.6のリリースを待ってるだけなんじゃないかなと思ってる。

何日か前に、ここで誰かがOpenAIが計算コストを半分に削減するブレイクスルーを達成したって言ってた気がするけど、これがそのこと?

それはThe Informationの記事だったけど、あんまり読みやすくなかったな。著者がLLMの仕組みについて十分な技術的専門知識を持ってない印象を受けたし、その主張は内部の噂から来たものだったから、信頼性が低いと思った。 「OpenAIのエンジニアたちは今月初めに、ある同僚に、最近発見された最適化のおかげで、推論コストを半分以上削減する方法を見つけたと話した」と、これに関する情報を持つ人が言ってた。

噂によると、実際にはOpenAI自体ではなく、ポストブリップのOpenAIの分派グループ(Thinking Machinesじゃないかとも言われてる)がブレイクスルーを達成して、OpenAIに売り込んでるみたい。OpenAIが実際に実装したわけではないと思う。

これは悪い感じだね。Codex CLIを使って再現するのも簡単だし。パズルのプロンプトを与えると、時々516トークンで考えがショートサーキットして、間違った結果を返すことがある。6000〜8000トークン使うと正しい結果が返ってくるんだけど。適応的思考に何か問題があるのかな?ローカルモデルの利点だね、サーバー側の変更を気にしなくていいし。追記:これがかなり頻繁に起こるみたい。全く同じプロンプトで10回試したら、4回がこの516トークンの問題が出て、全て間違った解答だった。つまり、ほぼ半分の確率で5.5 xhighがショートサーキットしてパフォーマンスが落ちてるかも。サンプルサイズは小さいけどね。

いろんな時間帯や曜日でテストすると、パターンが見えてくるのかな?例えば、平日のピーク時間にショートサーキットが起こることが多いとか。

誤設定されたローカルモデルについても心配しないといけないよね。プロでも間違えることがあるから、ローカルモデルのパフォーマンスはプロバイダーによってバラバラなんだ。

「モデルをバカにした」っていう珍しいケースだね。いつものユーザーの心理状態じゃなくて、実際にモデルがバカになったってこと?

なんか推測エンジンかエージェントのバグか設定ミスっぽいね。問題の詳細が意図的な隠れ弱体化を示してるわけじゃないし、むしろそれに反することを示唆してる。根本的な原因は粗雑で、特に隠れてるわけでもないし(普通のユーザーが独立して確認できる具体的な詳細を報告してるからね)。それに「いつものユーザーの精神病」って表現はあんまりフェアじゃないし、センスもないと思う。APIエンドポイントがコンテキストウィンドウを取り込んで、それを続けて返すだけの魔法のシンクしかないとき、主観的な判断や推測・疑念しか残らないよね。標準化されたモデルテストスイートがあっても、隠れ弱体化を主張するのは、そこにいる人たちの心を読もうとする行為に過ぎない。モデルの質は、明示的な意図がなくても劣化することがあるし、基盤インフラのダウングレードもあり得るからね。皮肉っぽく陰謀論を楽しむのも、実際に弱体化の可能性を考えるのも、精神病じゃないよ。こういう心理診断用語を乱用するトレンドは好きじゃないな。自信過剰な人もいるだろうけど、それは少数派だし、結局は誇張になっちゃう。誰の役にも立たないよ。

Hacker Newsで議論の続きを見る