概要
- GPT-5.3-Codex-Spark は、リアルタイムコーディング向けに設計された小型モデルの研究プレビュー公開
- Cerebras とのパートナーシップによる初の成果で、超低遅延ハードウェア上で1000トークン/秒超の高速応答
- ChatGPT Proユーザー 向けに研究プレビューとして提供、今後段階的にアクセス拡大予定
- 128kコンテキストウィンドウ ・テキスト専用で、独立したレート制限適用
- 超高速推論 とリアルタイム協調作業を両立、開発者からのフィードバックを重視
GPT-5.3-Codex-Spark研究プレビュー発表
- GPT-5.3-Codex-Spark は、GPT-5.3-Codexの小型版として初めてリアルタイムコーディングに最適化
- Cerebras との協業による最初のマイルストーン
- 超低遅延ハードウェア での提供により、1000トークン/秒以上の高速生成を実現
- 実用的なコーディングタスク にも対応する高い能力
- 研究プレビュー としてChatGPT Proユーザーに限定公開、今後データセンター拡張やユーザー体験向上を目指す
Codex-Sparkの特徴と利点
- リアルタイム作業 に特化し、即時応答と高い知性を両立
- ターゲット編集やロジック修正 など、細かなインタラクションが可能
- 大規模・長時間タスク と、即時作業の両方に対応する柔軟性
- 128kコンテキストウィンドウ を搭載し、テキストのみ対応
- 独立したレート制限 で、標準の利用制限とは別管理
スピードとインタラクション
- インタラクティブ作業 向けに最適化し、遅延を最小化
- ユーザーによる割り込みや指示変更 がリアルタイムで反映
- 軽量なデフォルト動作 で、最小限の編集を素早く実行
- 自動テスト実行は指示時のみ、スムーズな反復作業を実現
コーディング能力とベンチマーク
- SWE-Bench Pro や Terminal-Bench 2.0 で高い性能を示す
- GPT-5.3-Codex と比較し、短時間でタスクを完了
- 小型モデル ながら実用的なソフトウェアエンジニアリング能力
全モデル向けの遅延改善
- モデル速度 だけでなく、リクエスト-レスポンス全体の遅延を短縮
- クライアント・サーバー間通信 の最適化と、推論スタックの再設計
- セッション初期化の高速化 で、最初のトークン表示までの時間を短縮
- WebSocket接続 の導入で、ラウンドトリップのオーバーヘッド80%削減
- 1トークンあたりのオーバーヘッド30%削減、最初のトークン表示までの時間50%短縮
Cerebrasによる高速化
- Cerebras Wafer Scale Engine 3 上で動作し、低遅延推論を実現
- Codex全体のサービング基盤 に低遅延経路を統合
- GPUとの併用 で最適なコストパフォーマンスと超低遅延の両立
- 開発者コミュニティとの連携 で新たなユースケースや体験を模索
提供状況と今後の展開
- ChatGPT Proユーザー 向けにCodexアプリ、CLI、VS Code拡張で公開
- 低遅延ハードウェア 利用のため、独自のレート制限を適用
- 一部デザインパートナー向けAPI提供 で製品統合ニーズを調査
- 今後数週間でアクセス拡大、実運用下での統合調整を継続
- 今後はモデルの大型化、長文対応、マルチモーダル入力 など機能拡張予定
セーフティと評価
- 主要モデルと同等のセーフティトレーニング を実施
- サイバー分野に関する評価 も標準プロセスで実施済み
- サイバーセキュリティや生物学での高能力閾値には未到達 と判定
今後のビジョン
- Codexの2モード化 :長期推論・実行とリアルタイム協調の両立
- 双方向・並列化による柔軟なタスク分担 を実現
- モデルの高機能化に伴い、インタラクション速度が重要課題
- 超高速推論 による自然な開発体験と新たな可能性の拡大