GPT‑5.3‑Codex‑Spark

2026年2月13日原文(openai.com)

概要

GPT-5.3-Codex-Spark は、リアルタイムコーディング向けに設計された小型モデルの研究プレビュー公開
Cerebras とのパートナーシップによる初の成果で、超低遅延ハードウェア上で1000トークン/秒超の高速応答
ChatGPT Proユーザー 向けに研究プレビューとして提供、今後段階的にアクセス拡大予定
128kコンテキストウィンドウ ・テキスト専用で、独立したレート制限適用
超高速推論 とリアルタイム協調作業を両立、開発者からのフィードバックを重視

GPT-5.3-Codex-Spark研究プレビュー発表

GPT-5.3-Codex-Spark は、GPT-5.3-Codexの小型版として初めてリアルタイムコーディングに最適化
Cerebras との協業による最初のマイルストーン
超低遅延ハードウェア での提供により、1000トークン/秒以上の高速生成を実現
実用的なコーディングタスク にも対応する高い能力
研究プレビュー としてChatGPT Proユーザーに限定公開、今後データセンター拡張やユーザー体験向上を目指す

Codex-Sparkの特徴と利点

リアルタイム作業 に特化し、即時応答と高い知性を両立
ターゲット編集やロジック修正 など、細かなインタラクションが可能
大規模・長時間タスク と、即時作業の両方に対応する柔軟性
128kコンテキストウィンドウ を搭載し、テキストのみ対応
独立したレート制限 で、標準の利用制限とは別管理

スピードとインタラクション

インタラクティブ作業 向けに最適化し、遅延を最小化
ユーザーによる割り込みや指示変更 がリアルタイムで反映
軽量なデフォルト動作 で、最小限の編集を素早く実行
自動テスト実行は指示時のみ、スムーズな反復作業を実現

コーディング能力とベンチマーク

SWE-Bench Pro や Terminal-Bench 2.0 で高い性能を示す
GPT-5.3-Codex と比較し、短時間でタスクを完了
小型モデル ながら実用的なソフトウェアエンジニアリング能力

全モデル向けの遅延改善

モデル速度 だけでなく、リクエスト-レスポンス全体の遅延を短縮
クライアント・サーバー間通信 の最適化と、推論スタックの再設計
セッション初期化の高速化 で、最初のトークン表示までの時間を短縮
WebSocket接続 の導入で、ラウンドトリップのオーバーヘッド80%削減
1トークンあたりのオーバーヘッド30%削減、最初のトークン表示までの時間50%短縮

Cerebrasによる高速化

Cerebras Wafer Scale Engine 3 上で動作し、低遅延推論を実現
Codex全体のサービング基盤 に低遅延経路を統合
GPUとの併用 で最適なコストパフォーマンスと超低遅延の両立
開発者コミュニティとの連携 で新たなユースケースや体験を模索

提供状況と今後の展開

ChatGPT Proユーザー 向けにCodexアプリ、CLI、VS Code拡張で公開
低遅延ハードウェア 利用のため、独自のレート制限を適用
一部デザインパートナー向けAPI提供 で製品統合ニーズを調査
今後数週間でアクセス拡大、実運用下での統合調整を継続
今後はモデルの大型化、長文対応、マルチモーダル入力 など機能拡張予定

セーフティと評価

主要モデルと同等のセーフティトレーニング を実施
サイバー分野に関する評価 も標準プロセスで実施済み
サイバーセキュリティや生物学での高能力閾値には未到達 と判定

今後のビジョン

Codexの2モード化 ：長期推論・実行とリアルタイム協調の両立
双方向・並列化による柔軟なタスク分担 を実現
モデルの高機能化に伴い、インタラクション速度が重要課題
超高速推論 による自然な開発体験と新たな可能性の拡大

Hackerたちの意見

「これは、"階層的"な作業や優先度キューをコーディングエージェントでオフロードするのに面白いね。もし60%の作業が「この内容でこのファイルを編集する」とか「この抽象に従ってリファクタリングする」なら、低遅延で高トークンの推論が必要な改善点だと思う。最近、誰かが低優先度の作業をAnthropic Batch APIにオフロードするためのClaudeプラグインを作ったみたいだね。また、NvidiaとGoogleが推論用のカスタムシリコンを展開することを期待してるよ。」

└

「私はMCPを使って、ClaudeがCerebrasのGLM 4.7に開発を「アウトソース」できるような似たようなものを作ったよ（他のモデルでもできるけど、GLMを使ってる）。このツールはClaudeがシステムプロンプトや指示を設定し、出力ファイルを指定できるようにしてる。そして、プロンプトのコンテキストとして含めるべき追加ファイル（またはファイルのサブセクション）をリストアップできるのが重要なんだ。これで大成功を収めてて、開発時間がかなり短縮されて、コストも最小限で済んでる。」

└

「バッチAPIは通常のAIエージェントの使用よりもかなり高い遅延があることに注意してね。主に時間的制約が重要でないバルク作業向けに設計されてる。あと、GPTの「Codex」モデル（ほとんどの「Pro」モデルも）現在OpenAIのバッチAPIでは利用できないから、これらのタスクには非エージェントモデルを使わなきゃいけないし、どれくらいうまく対応できるかは不明だよ。（全体的に、バッチはエージェント作業にかなりの可能性があるけど、ローカルエージェントハーネスとの単一ラウンドトリップに最大24時間かかる可能性があるのは覚悟しないとね。）」

「これは5.1ミニに近いみたいで、Proアカウントに結びついてるね。GLM 4.7は今日Cerebrasでオンデマンドで利用可能で、パフォーマンスも良くて安いよ。」

└

GLM 4.7はTerminal Bench 2.0で41.0%のスコアを記録したけど、GPT-5.3-Codex-Sparkは58.4%だったよ。[1] https://z.ai/blog/glm-4-7 [2] https://openai.com/index/introducing-gpt-5-3-codex-spark/

「これがビッグ3の中でCerebrasを使うのは初めてかな？この日を待ってたんだ…」

└

「彼らは未検証の技術を恐れてたけど、今はスピードの飛躍に見えるね。」

＞「私たちの最新のフロンティアモデルは、長時間のタスクを自律的に実行する能力に特に強みを示しています。数時間、数日、あるいは数週間、介入なしで動作します。私はまだこれが実際に役立つものを生み出すのを見たことがありません。」

└

「彼らは介入なしで数時間、数日、あるいは数週間トークンを消費し続ける能力があるんだ。」

└

夜中に数時間コーデックスを動かしてデバッグするのが日課なんだ。もしアプリのフロントドアを通じてバグを再現できる決定論的なユニットテストがあっても、バグが実際にどうやって起こっているのかわからない場合、コーディングエージェントにデバッグプリントをあちこちに入れたり、仮説をテストしたりしてもらうのが理想的な使い方だよ。

└

どれくらい頑張った？Opus 4.5/4.6とGPT-5.2/5.3モデルが、長いタスクをこなす能力において本当に大きな進化を遂げたと感じてる。今では、以前はエージェントがミスを修正するために何度もフォローアップが必要だと思ってたような便利なコーディングチャレンジを一発でプロンプトできるようになったよ。例えば、これを一つのプロンプトから得たんだ：https://github.com/simonw/research/tree/main/cysqlite-wasm-w... - このデモページも含めて：https://simonw.github.io/research/cysqlite-wasm-wheel/demo.h... - この単一のプロンプトを使って：https://github.com/simonw/research/pull/79

└

何度も成功したよ。これらの人気ツールが無駄なものしか生み出せないって言うのは簡単だけど、試してないか、エージェントが自分の進捗を評価できるように「ループを閉じて」ないか、他のユーザーの無能なフィードを監視してるだけなんじゃない？

Hacker Newsで議論の続きを見る

ハクソク