世界を動かす技術を、日本語で。

GPT‑5.3‑Codex‑Spark

概要

  • GPT-5.3-Codex-Spark は、リアルタイムコーディング向けに設計された小型モデルの研究プレビュー公開
  • Cerebras とのパートナーシップによる初の成果で、超低遅延ハードウェア上で1000トークン/秒超の高速応答
  • ChatGPT Proユーザー 向けに研究プレビューとして提供、今後段階的にアクセス拡大予定
  • 128kコンテキストウィンドウ ・テキスト専用で、独立したレート制限適用
  • 超高速推論 とリアルタイム協調作業を両立、開発者からのフィードバックを重視

GPT-5.3-Codex-Spark研究プレビュー発表

  • GPT-5.3-Codex-Spark は、GPT-5.3-Codexの小型版として初めてリアルタイムコーディングに最適化
  • Cerebras との協業による最初のマイルストーン
  • 超低遅延ハードウェア での提供により、1000トークン/秒以上の高速生成を実現
  • 実用的なコーディングタスク にも対応する高い能力
  • 研究プレビュー としてChatGPT Proユーザーに限定公開、今後データセンター拡張やユーザー体験向上を目指す

Codex-Sparkの特徴と利点

  • リアルタイム作業 に特化し、即時応答と高い知性を両立
  • ターゲット編集やロジック修正 など、細かなインタラクションが可能
  • 大規模・長時間タスク と、即時作業の両方に対応する柔軟性
  • 128kコンテキストウィンドウ を搭載し、テキストのみ対応
  • 独立したレート制限 で、標準の利用制限とは別管理

スピードとインタラクション

  • インタラクティブ作業 向けに最適化し、遅延を最小化
  • ユーザーによる割り込みや指示変更 がリアルタイムで反映
  • 軽量なデフォルト動作 で、最小限の編集を素早く実行
  • 自動テスト実行は指示時のみ、スムーズな反復作業を実現

コーディング能力とベンチマーク

  • SWE-Bench ProTerminal-Bench 2.0 で高い性能を示す
  • GPT-5.3-Codex と比較し、短時間でタスクを完了
  • 小型モデル ながら実用的なソフトウェアエンジニアリング能力

全モデル向けの遅延改善

  • モデル速度 だけでなく、リクエスト-レスポンス全体の遅延を短縮
  • クライアント・サーバー間通信 の最適化と、推論スタックの再設計
  • セッション初期化の高速化 で、最初のトークン表示までの時間を短縮
  • WebSocket接続 の導入で、ラウンドトリップのオーバーヘッド80%削減
  • 1トークンあたりのオーバーヘッド30%削減、最初のトークン表示までの時間50%短縮

Cerebrasによる高速化

  • Cerebras Wafer Scale Engine 3 上で動作し、低遅延推論を実現
  • Codex全体のサービング基盤 に低遅延経路を統合
  • GPUとの併用 で最適なコストパフォーマンスと超低遅延の両立
  • 開発者コミュニティとの連携 で新たなユースケースや体験を模索

提供状況と今後の展開

  • ChatGPT Proユーザー 向けにCodexアプリ、CLI、VS Code拡張で公開
  • 低遅延ハードウェア 利用のため、独自のレート制限を適用
  • 一部デザインパートナー向けAPI提供 で製品統合ニーズを調査
  • 今後数週間でアクセス拡大、実運用下での統合調整を継続
  • 今後はモデルの大型化、長文対応、マルチモーダル入力 など機能拡張予定

セーフティと評価

  • 主要モデルと同等のセーフティトレーニング を実施
  • サイバー分野に関する評価 も標準プロセスで実施済み
  • サイバーセキュリティや生物学での高能力閾値には未到達 と判定

今後のビジョン

  • Codexの2モード化 :長期推論・実行とリアルタイム協調の両立
  • 双方向・並列化による柔軟なタスク分担 を実現
  • モデルの高機能化に伴い、インタラクション速度が重要課題
  • 超高速推論 による自然な開発体験と新たな可能性の拡大

Hackerたちの意見

「これは、"階層的"な作業や優先度キューをコーディングエージェントでオフロードするのに面白いね。もし60%の作業が「この内容でこのファイルを編集する」とか「この抽象に従ってリファクタリングする」なら、低遅延で高トークンの推論が必要な改善点だと思う。最近、誰かが低優先度の作業をAnthropic Batch APIにオフロードするためのClaudeプラグインを作ったみたいだね。また、NvidiaとGoogleが推論用のカスタムシリコンを展開することを期待してるよ。」

「私はMCPを使って、ClaudeがCerebrasのGLM 4.7に開発を「アウトソース」できるような似たようなものを作ったよ(他のモデルでもできるけど、GLMを使ってる)。このツールはClaudeがシステムプロンプトや指示を設定し、出力ファイルを指定できるようにしてる。そして、プロンプトのコンテキストとして含めるべき追加ファイル(またはファイルのサブセクション)をリストアップできるのが重要なんだ。これで大成功を収めてて、開発時間がかなり短縮されて、コストも最小限で済んでる。」

「バッチAPIは通常のAIエージェントの使用よりもかなり高い遅延があることに注意してね。主に時間的制約が重要でないバルク作業向けに設計されてる。あと、GPTの「Codex」モデル(ほとんどの「Pro」モデルも)現在OpenAIのバッチAPIでは利用できないから、これらのタスクには非エージェントモデルを使わなきゃいけないし、どれくらいうまく対応できるかは不明だよ。(全体的に、バッチはエージェント作業にかなりの可能性があるけど、ローカルエージェントハーネスとの単一ラウンドトリップに最大24時間かかる可能性があるのは覚悟しないとね。)」

「これは5.1ミニに近いみたいで、Proアカウントに結びついてるね。GLM 4.7は今日Cerebrasでオンデマンドで利用可能で、パフォーマンスも良くて安いよ。」

GLM 4.7はTerminal Bench 2.0で41.0%のスコアを記録したけど、GPT-5.3-Codex-Sparkは58.4%だったよ。[1] https://z.ai/blog/glm-4-7 [2] https://openai.com/index/introducing-gpt-5-3-codex-spark/

「これがビッグ3の中でCerebrasを使うのは初めてかな?この日を待ってたんだ…」

「彼らは未検証の技術を恐れてたけど、今はスピードの飛躍に見えるね。」

>「私たちの最新のフロンティアモデルは、長時間のタスクを自律的に実行する能力に特に強みを示しています。数時間、数日、あるいは数週間、介入なしで動作します。私はまだこれが実際に役立つものを生み出すのを見たことがありません。」

「彼らは介入なしで数時間、数日、あるいは数週間トークンを消費し続ける能力があるんだ。」

夜中に数時間コーデックスを動かしてデバッグするのが日課なんだ。もしアプリのフロントドアを通じてバグを再現できる決定論的なユニットテストがあっても、バグが実際にどうやって起こっているのかわからない場合、コーディングエージェントにデバッグプリントをあちこちに入れたり、仮説をテストしたりしてもらうのが理想的な使い方だよ。

どれくらい頑張った?Opus 4.5/4.6とGPT-5.2/5.3モデルが、長いタスクをこなす能力において本当に大きな進化を遂げたと感じてる。今では、以前はエージェントがミスを修正するために何度もフォローアップが必要だと思ってたような便利なコーディングチャレンジを一発でプロンプトできるようになったよ。例えば、これを一つのプロンプトから得たんだ:https://github.com/simonw/research/tree/main/cysqlite-wasm-w... - このデモページも含めて:https://simonw.github.io/research/cysqlite-wasm-wheel/demo.h... - この単一のプロンプトを使って:https://github.com/simonw/research/pull/79

何度も成功したよ。これらの人気ツールが無駄なものしか生み出せないって言うのは簡単だけど、試してないか、エージェントが自分の進捗を評価できるように「ループを閉じて」ないか、他のユーザーの無能なフィードを監視してるだけなんじゃない?

先日、仕事でCodexを使ってVite 8のアップグレードを一発で成功させたんだ(収益のある本物のウェブサイトで)。それが3時間以上も介入なしで動いてた(その間寝てた)。今はもう本番環境で使ってるよ。

PEBKAC

これめっちゃ好き!コーディングエージェントを使って、マスタースライドがコンポーネントになってるウェブベースのスライドデッキを作ってるんだ。企業のアイデンティティを守るためのルールやアセットも既にあるし、コンテンツとプロンプトを使えば、きれいで事前に定義されたプレゼンテーションを簡単に生成できる。さらに欲しいのは「インプロモード」かな。トーク中に観客の質問やちょっとした言い回しの変更に応じて分岐できて、システムがリアルタイムで次のスライドの候補を3つ提案してくれる感じ。どれかを選んで発表したら、スムーズにメインデッキに戻れるの。例えば、最近のニュース記事や研究を言及したら、自動でスクリーンショットとソースへのQRコードリンクを含むスライドを生成して、元のストーリーに戻してくれる。リアルタイムの音声とコード生成があれば、退屈なプレゼンターのビューが本当に役立つものに変わるかも。

図はどう扱ってるの?

生きているスライドデッキのアイデアが大好き!これは絶対に必要な製品だと思う!

この確率的な性質が好きだな。プレゼンテーションは、すごく印象的なものから、めちゃくちゃ恥ずかしいものまで、幅広くなる可能性があるよね。

それ、見せてくれる?

セレブラスは今の時代で最も過小評価されている会社の一つだと信じ続けてる。ディナープレートサイズのチップで、実際に動くし、実際のワークロードに対して他のどれよりもずっと速い。すごいよね。

ただ、めちゃくちゃ高くなければいいのに…

「ディナープレートサイズ」っていうのは、フルシリコンウェハーだからなんだよね。ウェハースケールの統合が実際の仕事で使われるようになって嬉しいけど、これって何十年も研究されてきたことなんだよね。

うん。

彼らが使っている用途には無理だね。チップ1個あたり100万ドル以上で、ラックに1つしか入らない。データセンターのラックスペースは貴重な資産だから、密度が足りない。AIモデルには大量のメモリが必要なんだけど(この製品発表がその例)、彼らにはそれがないし、ファブでは最後の順番だから手に入れる方法もない。唯一のチャンスは買収だけど、NVIDIAは代わりにGroqに200億ドル使っちゃったし。もう終わりだね。

Cerebrasは「宇宙にデータセンター」みたいな感じのスタントだね。歩留まりがひどくて、1つの欠陥がウェハ全体をダメにしちゃうこともある。パフォーマンスとコストもイマイチ(上を見てみて)。プログラミングも難しいし、RAMのスペースも少ない。

ブログのざっくりした数字によると、Cerebrasは約1秒間に1000トークン処理できるみたいで、GLM 4.7と同じくらいのサイズになるね。GLM 4.7も1秒間に1000トークンで使えるし、普通のCodexモデルよりも小さいモデルだって言ってる。

OpenClawを使って、いくつかのコーディングエージェントを管理してる人いる?高レベルのビジョンだけ設定して、プロンプトやテスト、デバッグ、フォークはエージェントに任せる感じで。もしそうなら、どうやって全部まとめたの?ローカルモデル使ってる?512GBのM3 Ultra、2台のDGX Spark、1台のRTX Pro 6000 Max-Q、もう1台のRTX Pro 6000 WSを使って、ローカルで何ができるかのSOTAは何?

Codexでこれを使った最初の感想:めっちゃ速いけど、やっぱり小さいモデルの感じがする。bluey benchをぶっ壊してるんだけど、これはファイルシステムのタスクで、エージェントにblueyのシーズンの全エピソードのトランスクリプトを生成させて、ウェブ検索でエピソードの説明を探して、それをトランスクリプトと照らし合わせてファイル名とメタデータを生成するっていう作業。信じられないくらい速いけど、AGENTS.mdに書いてあるアクションを実行するようにプロンプトを与えないといけない。大きなgpt-5.x-codexモデルは、プロンプトなしでそれをちゃんとやってたのに。