世界を動かす技術を、日本語で。

GPT-5.3-Codex

概要

  • GPT‑5.3-Codex は、これまでで最も高性能なエージェント型コーディングモデル
  • GPT‑5.2-Codex よりも25%高速化し、推論・専門知識も強化
  • 長時間タスクや複雑な作業 も自律的に遂行可能
  • サイバーセキュリティ機能 や安全対策も大幅強化
  • ChatGPT有料プラン で利用可能、API提供も予定

GPT‑5.3-Codex:次世代エージェント型コーディングモデル

  • GPT‑5.3-Codex は、従来モデルの性能を大幅に上回るエージェント型AI
  • 推論能力・専門知識 ともにGPT‑5.2と同等以上の水準
  • 25%の高速化 により、長時間・複雑なエージェント作業も実現
  • ユーザーとのリアルタイム対話 が可能なインタラクティブ設計
  • 自己進化 :初期版Codexが自身のトレーニング・デプロイ・評価を支援

フロンティア・エージェント能力

  • SWE-Bench ProTerminal-Bench など主要ベンチマークで業界最高水準
    • SWE-Bench Proは4言語対応・現実的なソフトウェアエンジニアリング評価
    • Terminal-Bench 2.0で従来モデルを大きく上回る
  • OSWorldGDPval でも高い実用力・知識労働能力を証明
  • トークン効率 が向上し、より多くの成果物を生成可能

実用例と進化

  • Webゲーム開発 や複雑なアプリ構築も数日で自律的に遂行
  • 日常的なWebサイト作成 でも、より機能的かつ実用的な初期案を自動生成
  • ランディングページ例 では、割引表示・多様なユーザーテストモニアル自動実装

ソフトウェア開発の全工程対応

  • デバッグ・デプロイ・モニタリング・PRD作成・ユーザー調査 など幅広い業務支援
  • スライド作成やデータ分析 など非エンジニア業務にも対応
  • GDPval で44職種の知識労働タスクにおいて高得点

インタラクティブなコラボレーターとしての進化

  • リアルタイム進捗報告・対話型フィードバック が可能
  • 複数エージェントの同時指示・監督 が容易に
  • 途中経過の質問・修正指示 が即時反映
  • 設定 から「モデル動作中のステアリング」を有効化可能

Codexによる自己進化と開発支援

  • 研究者・エンジニアの業務を根本から変革
    • トレーニング監視・デバッグ・パターン解析・アプリ構築まで自律支援
  • エンジニアリングチーム はCodexでハーネス最適化やバグ原因特定を実施
  • データサイエンス業務 もCodexと協働し、データパイプラインやダッシュボードを強化
  • 生産性向上 :1ターンあたりの進捗増加・明確な意図理解を実現

サイバーセキュリティ強化

  • サイバーセキュリティ関連タスク で初のHigh capability認定
  • 脆弱性検出 に特化した初の直接訓練モデル
  • 安全対策 :自動監視・アクセス管理・脅威インテリジェンス連携
  • Trusted Access for Cyber やAardvarkなど、セキュリティ研究支援プログラム拡充
  • APIクレジット1,000万ドル分 をサイバー防御促進のため提供

利用方法・今後の展望

  • ChatGPT有料プラン で、アプリ・CLI・IDE拡張・Webから利用可能
  • APIアクセス も近日中に提供予定
  • 25%高速化 により、よりスムーズな体験を実現
  • NVIDIA GB200 NVL72 システム上で設計・訓練・提供
  • 今後はコーディングを超えた一般的な知識労働エージェントへ進化

主要ベンチマーク比較(抜粋)

| モデル | SWE-Bench Pro | Terminal-Bench 2.0 | OSWorld-Verified | GDPval | Cybersecurity CTF | SWE-Lancer IC Diamond | |--------|:-------------:|:------------------:|:----------------:|:------:|:-----------------:|:---------------------:| | GPT-5.3-Codex | 56.8% | 77.3% | 64.7% | 70.9% | 77.6% | 81.4% | | GPT-5.2-Codex | 56.4% | 64.0% | 38.2% | - | 67.4% | 76.0% | | GPT-5.2 | 55.6% | 62.2% | 37.9% | 70.9% | 67.7% | 74.6% |

Hackerたちの意見

昔はAIラボが大きな発表を同じ日にしないように調整してたのに、今じゃ30分の間に大発表を連発するようになったよね。

競争のスリル

彼らは中国の旧正月に合わせて、主要なオープンモデルやローカルモデルの新リリースと競争するために調整してるみたい。

これは避けられない崩壊の兆しだね!

研究所は完全に容赦のない競争を受け入れて、武器競争は互恵的な協力の文明的な外見を完全に捨て去った。汚い手段や陰湿な戦術が起こるだろうね。デミスはこの分野に詳しくないと思うけど、純粋なパフォーマンスで競争を蹴散らすかもしれない。イーロン、サム、ダリオは、汚い戦い方や政治的なボードルームの嫌なことをするのが得意だから。2026年は非常にドラマチックな年になるだろうし、最終的なAIのバイオピックにはたくさんのシネマティックな可能性があるね。

これはかなり前からの話だね。2023年にOpenAIがGPT-4を発表したとき、AnthropicとGoogleはOpenAIの標準の午前10時の発表時間の直前に、対抗の発表を用意してた(ClaudeとMagic Wand)。

それって違法じゃない?つまり、そういうふうに共謀するカルテルってこと?

安全性を気にしてるフリはやめてほしい。トップの研究者以外は、競争に負けない限り安全性なんて気にしてないと思う。ゲーム理論的に見ても、AIラボは生き残るために何でもやるだろうし、規制がないと限界を設けるのは無理。お金が絡むと自己規制なんて機能しないよ。

アンスロピックは、今朝10時前にリリースを急いだんじゃないかな。GPT-5.3-codexとの比較を避けるために!新しいOpus 4.6はTerminal-Bench 2.0で65.4点を記録したけど、これはGPT-5.2-codexの64.7から上がった数字だよ。GPT-5.3-codexは77.3点。

GPT-5.3-codexの大きな飛躍はすごいし、同じ日に2つのトップコーディングモデルが出るのはクレイジーだね…

AIのベンチマークはあまり信じてないんだ。自分の経験と合わないことが多いから。ただ、Codex 5.2は複雑なタスクには最適なコーディングモデルだったと思うけど、かなり遅かったね。だから5.3を試すのがすごく楽しみ。

今日はOpusが全然役に立たなかった。たくさんのグローバル変数やスタティック、前方宣言、テスト可能なインターフェースのないcppファイルの隠れた実装、型の消去、voidポインタのキャストなど、かなりの修正が必要で、絡まったゴチャゴチャを解消しなきゃいけなかった。ロールアウト後にパフォーマンスが良くなることを願ってる。

何十億ドルの企業が同じ日に広告を出すと、競争じゃなくて、むしろ苦境とサバイバルの兆しだよね。「最高の人工知能」の力を持っていて、資本もたくさん、頭脳も素晴らしいのに、これが出てくるの?面白いね。

どうしたの?

そうだね、彼らはどちらも生き残りをかけて戦ってる。驚くことじゃないよ。本当にIPOするなら、 hypeを維持しないとね。

面白いのは、この「進歩」のほとんどが新しいデータセットと、モデルの振る舞いを整えるための後処理(指示と好みの調整)であることだね。それ以外に特に強みはない。

「GPT-5.3-Codexは、私たちの準備フレームワークの下でサイバーセキュリティ関連のタスクに対して高い能力を持つモデルとして初めて分類され、ソフトウェアの脆弱性を特定するために直接訓練された最初のモデルです。サイバー攻撃をエンドツーエンドで自動化できるという決定的な証拠はありませんが、私たちは予防的なアプローチを取り、これまでで最も包括的なサイバーセキュリティの安全スタックを展開しています。私たちの緩和策には、安全トレーニング、自動監視、高度な機能のための信頼できるアクセス、脅威インテリジェンスを含む強制パイプラインが含まれています。」私はCodexが素晴らしいツールだと思うけど、彼らの準備フレームワークは時代遅れだと思う。ますます複雑なアプリを「バイブコーディング」する能力が高まる中で、主なセキュリティ問題は、セキュリティが重要なソフトウェアが増えることで発生することが明らかになってきている。人間が書いたシステムと、Codexが人間のソフトウェアに対してどれだけ効果的に使えるかを見るのは素晴らしいけど、逆に人間(または彼ら自身のソフトウェア)がCodexによって主に書かれた複雑なシステムにどれだけ侵入できるかを測ることがますます重要になってきている。簡単に言うと、Codexはデフォルトで安全なソフトウェアを書くべきだ。

「高能力」って「博士レベルの専門家チーム」よりも強い主張なの? https://www.nbcnews.com/tech/tech-news/openai-releases-chatg...

これらのモデルをいつリリースするか決める裏側は、30分くらいの間隔で出るなら、かなりストレスがかかるだろうね。

何か内部の情報や調整がないと、実際には難しそうだね。

ターミナルベンチ 2.0 | 名前 | スコア | |---------------------|-------| | OpenAI Codex 5.3 | 77.3 | | Anthropic Opus 4.6 | 65.4 |

そうなんだけど、ベンチマックスの時代はもう終わった気がする。特定のベンチでモデルがアンソロピックを上回ったことは何度もあるけど、やっぱり「感じ」としてはコーディングがまだまだ劣ってる気がする。

Codexはあんまり使ってなかった(遅すぎたから)けど、5.2は自分の仕事にはすごく良いモデルだった。これもまた一歩進んだ感じ。今週は全部ローカルで、オープンコードで遊んでるし、次は自分の小さなスパークマシンでqwen3コーダーを動かす予定。これらのローカルモデルが進化してるから、もしかしたら全てのLLM作業をローカルに移すかも。

Codexを結構使ってみたけど、ほとんど何に対しても苦労してる印象。だけど、同等のチャットGPTモデルは素晴らしい。やっぱり焦点を絞って、少ないコードセットを与えられることが重要なんだろうね。

私たちのチームは驚いた > Codexが自分の開発をどれだけ加速できるかに > 「あなたがそれを使って何をするのか楽しみ」と言い忘れた

発表から気になったことがあったんだけど、

「GPT‑5.3‑Codexは、自分自身を作るのに重要な役割を果たした初めてのモデルです。Codexチームは初期のバージョンを使って自分のトレーニングをデバッグしました。」 Codexチームがこういう「ドッグフーディング」に移行してるのを見るのは嬉しいな。これがClaude Codeの勢いを得るために重要だったと思う。