概要
Codexのtoken_countメタデータから、 gpt-5.5 モデルの応答が 516 reasoning_output_tokens で異常に集中するパターンを観測。 この現象は gpt-5.5固有 で、 1034や1552 にも類似のスパイクが見られる。 全体的な推論トークン使用量は 減少傾向 であり、複雑なタスクでの性能低下と関連。 この現象は #29353 の既知問題とも関連。 本件は モデル内部の閾値的な動作 を示唆。
Codexにおけるgpt-5.5の推論トークンクラスタリング異常
-
調査対象
- プロダクト: Codex
- 主な影響モデル: gpt-5.5
- データソース: token_countメタデータ
- 対象期間: 2026年2月1日~6月27日(UTC)
- 関連Issue: #29353(gpt-5.5の516トークン短絡現象)
-
主要な観測結果
- 516 reasoning_output_tokens での応答が gpt-5.5 に特異的に多発
- 1034, 1552 にも固定値スパイク
- gpt-5.5 は全応答の 19.3% だが、 exact-516イベントの82.0% を占有
- gpt-5.5のexact-516 / >=516比率:44.0%
- 他モデル(gpt-5.2, gpt-5.4, codex系)はこの現象がほぼ皆無
-
モデル別の詳細データ
- gpt-5.5 :75,401件中44.0%がexact-516
- gpt-5.4 :25,214件中19.8%
- gpt-5.2 :247,575件中0.34%
- gpt-5.3-codex、 gpt-5.3-codex-spark :0.0%
-
月次推移(exact-516クラスタリングの増加)
- 2026年2月:0.11%
- 2026年3月:2.45%
- 2026年4月:4.25%
- 2026年5月:53.30%
- 2026年6月:35.84%
-
推論トークン強度の推移(平均・P90)
- 2月:平均268.1/P90=772
- 3月:平均256.8/P90=723
- 4月:平均228.7/P90=669
- 5月:平均106.9/P90=344
- 6月:平均168.5/P90=515
-
疑わしい点
- 全体の推論トークン数は 減少 しているのに、 exact-516クラスタリング が急増
- gpt-5.5 のみで顕著。他モデルではほぼ発生せず
- 516, 1034, 1552 など 不自然な固定値 でのスパイク
- 自然なタスク難易度分布 ならこのようなクラスタリングは起きないはず
-
期待される挙動
- 複雑なCodexタスクでは 推論トークン数がタスクごとに自然分布 すること
- 1モデルだけ極端に 特定値でクラスタリング しないこと
-
実際の挙動
- gpt-5.5 では exact-516 での応答集中が顕著
- 1034, 1552 でも類似スパイク
- 他モデルではこの現象が弱い、または存在しない
Codexチームへの要望・検証案
-
gpt-5.5 で 推論バジェット・ルーティング・トランケーション・フォールバック・スケジューラー 等による 516/1034/1552付近での強制終了 が発生していないか調査要請
-
exact-516 が 通常の停止点・バジェット上限・デグレードティア・内部閾値 等を示すか確認要請
-
内部検証チェック例
- reasoning_output_tokensごとの token_countイベント をモデル別にクエリ
- 0, 516, 1034, 1552 のexact値カウント比較
- count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516) をモデル・日次で算出
- gpt-5.5 と gpt-5.2, gpt-5.4, codex系 で比較
- 複雑タスクを gpt-5.2・gpt-5.5 で再実行し、 exact-516応答と長文応答 で品質評価分離
結論
- gpt-5.5 固有の 推論トークンクラスタリング異常 が観測され、 内部閾値的な動作 の可能性
- 複雑・高難度タスクでの 性能劣化 とも関連
- モデル仕様の再確認・追加検証 が必要