概要
- GPT‑5.3-Codex は、これまでで最も高性能なエージェント型コーディングモデル
- GPT‑5.2-Codex よりも25%高速化し、推論・専門知識も強化
- 長時間タスクや複雑な作業 も自律的に遂行可能
- サイバーセキュリティ機能 や安全対策も大幅強化
- ChatGPT有料プラン で利用可能、API提供も予定
GPT‑5.3-Codex:次世代エージェント型コーディングモデル
- GPT‑5.3-Codex は、従来モデルの性能を大幅に上回るエージェント型AI
- 推論能力・専門知識 ともにGPT‑5.2と同等以上の水準
- 25%の高速化 により、長時間・複雑なエージェント作業も実現
- ユーザーとのリアルタイム対話 が可能なインタラクティブ設計
- 自己進化 :初期版Codexが自身のトレーニング・デプロイ・評価を支援
フロンティア・エージェント能力
- SWE-Bench Pro や Terminal-Bench など主要ベンチマークで業界最高水準
- SWE-Bench Proは4言語対応・現実的なソフトウェアエンジニアリング評価
- Terminal-Bench 2.0で従来モデルを大きく上回る
- OSWorld や GDPval でも高い実用力・知識労働能力を証明
- トークン効率 が向上し、より多くの成果物を生成可能
実用例と進化
- Webゲーム開発 や複雑なアプリ構築も数日で自律的に遂行
- 日常的なWebサイト作成 でも、より機能的かつ実用的な初期案を自動生成
- ランディングページ例 では、割引表示・多様なユーザーテストモニアル自動実装
ソフトウェア開発の全工程対応
- デバッグ・デプロイ・モニタリング・PRD作成・ユーザー調査 など幅広い業務支援
- スライド作成やデータ分析 など非エンジニア業務にも対応
- GDPval で44職種の知識労働タスクにおいて高得点
インタラクティブなコラボレーターとしての進化
- リアルタイム進捗報告・対話型フィードバック が可能
- 複数エージェントの同時指示・監督 が容易に
- 途中経過の質問・修正指示 が即時反映
- 設定 から「モデル動作中のステアリング」を有効化可能
Codexによる自己進化と開発支援
- 研究者・エンジニアの業務を根本から変革
- トレーニング監視・デバッグ・パターン解析・アプリ構築まで自律支援
- エンジニアリングチーム はCodexでハーネス最適化やバグ原因特定を実施
- データサイエンス業務 もCodexと協働し、データパイプラインやダッシュボードを強化
- 生産性向上 :1ターンあたりの進捗増加・明確な意図理解を実現
サイバーセキュリティ強化
- サイバーセキュリティ関連タスク で初のHigh capability認定
- 脆弱性検出 に特化した初の直接訓練モデル
- 安全対策 :自動監視・アクセス管理・脅威インテリジェンス連携
- Trusted Access for Cyber やAardvarkなど、セキュリティ研究支援プログラム拡充
- APIクレジット1,000万ドル分 をサイバー防御促進のため提供
利用方法・今後の展望
- ChatGPT有料プラン で、アプリ・CLI・IDE拡張・Webから利用可能
- APIアクセス も近日中に提供予定
- 25%高速化 により、よりスムーズな体験を実現
- NVIDIA GB200 NVL72 システム上で設計・訓練・提供
- 今後はコーディングを超えた一般的な知識労働エージェントへ進化
主要ベンチマーク比較(抜粋)
| モデル | SWE-Bench Pro | Terminal-Bench 2.0 | OSWorld-Verified | GDPval | Cybersecurity CTF | SWE-Lancer IC Diamond | |--------|:-------------:|:------------------:|:----------------:|:------:|:-----------------:|:---------------------:| | GPT-5.3-Codex | 56.8% | 77.3% | 64.7% | 70.9% | 77.6% | 81.4% | | GPT-5.2-Codex | 56.4% | 64.0% | 38.2% | - | 67.4% | 76.0% | | GPT-5.2 | 55.6% | 62.2% | 37.9% | 70.9% | 67.7% | 74.6% |