世界を動かす技術を、日本語で。

GPT-5-Codex

概要

  • GPT-5-Codex は、実践的なソフトウェア開発に特化した 次世代コーディングAI
  • コードレビュー機能エージェント的な作業支援 が大幅に強化。
  • Codex CLIやIDE拡張機能 など、さまざまな開発環境と連携。
  • ChatGPT Plus/Pro/Business/Edu/Enterprise プランに標準搭載。
  • セキュリティ対策柔軟な利用制限 も強化。

GPT-5-Codexの特徴

  • GPT-5を基盤 に、Codex向けに最適化されたAIコーディングエージェント。
  • 現実のソフトウェア開発 を想定した学習データでトレーニング。
    • ゼロからのプロジェクト構築
    • 機能追加、テスト実装、デバッグ、大規模リファクタリング
    • コードレビュー
  • AGENTS.md の指示に従いやすく、 高品質なコード生成
  • タスクの複雑さに応じた思考時間調整 機能。
  • 短い対話セッション長時間の独立作業 の両立。
  • コードレビュー能力 が大幅向上。
    • 依存関係を考慮した解析
    • テスト実行による正当性検証
    • 重要なバグの早期発見
  • フロントエンド開発モバイルWebサイト作成 にも強み。
    • 画像やスクリーンショットを入力・確認可能
  • Codex CLI、IDE拡張、GitHub、ChatGPT iOSアプリ など多様な環境対応。
  • 一般用途のGPT-5 と異なり、 コーディングタスク専用 推奨。

Codexの最新アップデート

  • Codex CLI の刷新と 新IDE拡張機能 の追加。
    • CLIは オープンソース、コミュニティのフィードバックを反映。
    • 画像添付 (スクリーンショット・ワイヤーフレーム・図)対応。
    • ToDoリスト による進捗管理。
    • Web検索や外部システム連携機能 の精度向上。
  • ターミナルUI の改善。
    • ツール呼び出しや差分表示 の見やすさ向上。
    • 承認モード を3段階にシンプル化。
    • 会話状態の圧縮 で長期セッションも管理しやすい。
  • IDE拡張機能 による VS CodeやCursor 等への統合。
    • ローカルとクラウド間のシームレスな作業移動
    • 短いプロンプトで素早い応答
    • クラウドタスクの管理・レビュー がエディタ内で完結。
  • GitHub統合 による 開発フローへの密着
    • PRレビュー自動化、指摘点の実装依頼も可能。
    • @codex review で明示的なレビュー要請や追加指示。
  • クラウドインフラ性能 の継続的向上。
    • コンテナキャッシュ によるタスク完了時間90%短縮。
    • 自動セットアップ・依存解決 の自律化。
  • 画像活用 によるUIバグ報告やデザイン仕様共有。
    • スクリーンショット添付ビジュアル検証 も自動化。
  • コードレビューAI としての進化。
    • 意図と実装の一致検証、依存関係やテスト実行による多面的判断。
    • 人間の徹底的なレビュー並み の品質担保。

セキュリティと信頼性

  • コード・データの流出防止悪用対策 を重視した設計。
  • デフォルトでサンドボックス実行、ネットワークアクセス無効化
  • 危険な操作時の許可確認 機能。
  • セキュリティ設定のカスタマイズ が可能。
    • クラウドでは 信頼済みドメインのみアクセス許可
    • CLI/IDEでは コマンド承認やWeb検索許可 の細かな制御。
  • 作業内容の確認推奨
    • 出典情報・ログ・テスト結果 の提示。
    • コードレビューは 人間の補助 として利用推奨。
  • 生物・化学分野での高能力扱い による 追加の安全対策

料金・利用条件

  • ChatGPT Plus/Pro/Business/Edu/Enterprise プランに 標準搭載
    • プランごとに 利用上限 が異なる。
      • Plus/Edu/Business:週数回の集中セッション向け
      • Pro:複数プロジェクトのフル稼働対応
      • Business:クレジット追加購入可
      • Enterprise: 共有クレジットプール で従量課金
  • Codex CLIのAPIキー利用者向け には、 GPT-5-Codex API提供予定
  • 開発者の作業効率化・品質向上 を実現する 頼れるAIパートナー への進化。

今後の展望

  • さらなる性能向上と機能拡充 を継続予定。
  • 開発現場に密着したAIコーディングパートナー としての進化。
  • ユーザーからのフィードバック を活かし、より良い開発体験の実現。

Hackerたちの意見

SWE-BenchではGPT-5と比べて1.7%のアップグレードだけど、内部のコードリファクタリングベンチマークでは33.9%から51.3%に上がってるね。これはOpus 4.1みたいなアップグレードで、Codexに本気だってことがわかるのが嬉しい。

面白いね、新しいモデルのプロンプトは前のプロンプトの半分くらいのサイズ(10KB対23KB)だって。[0][1] SWE-benchのパフォーマンスは普通のGPT-5と似てるから、gpt-5-codexの主な違いはコードリファクタリングにあるみたい(内部リファクターベンチマークで33.9%から51.3%)。最近Codex CLI(gpt-5-high)を使って大規模なリファクタリング(複数の内部ライブラリを専用パッケージに)をしたんだけど、モデルがファイルを削除して再書き込みする時にバグが出てきて、重要な詳細が抜けてたんだ。私のアプローチはファイルをそのままコピーしてからパッケージ特有の変更を加えることだったから、もっと良いツールの呼び出しが関係してるのかもね。それに、新しいモデルはより操作しやすいって言ってる(AGENTS.mdや一般的に)。私の経験では、Codex CLI w/gpt-5はすでにClaude Codeよりもずっと操作しやすいけど、改善があれば大歓迎だよ! [0]https://github.com/openai/codex/blob/main/codex-rs/core/gpt_... [1]https://github.com/openai/codex/blob/main/codex-rs/core/prom...

面白いことに、「より操作しやすい」っていうのは時々悪いこともあるんだ。自分の興味に反してもプロンプトに忠実に従う傾向があるからね。より良いプロンプトが必要だし、全体的に自分が何をしているかを理解している必要がある。初心者のコーダーには悪影響かもしれないけど、経験豊富なソフトウェアエンジニアには良いかも。

SWE-benchのパフォーマンスは普通のGPT-5と似てるから、gpt-5-codexの主な違いはコードリファクタリングにあるみたい。SWE-benchは素晴らしい評価だけど、すごく狭い範囲なんだ。二つのモデルが同じSWE-benchのスコアを持っていても、ユーザー体験は全然違うことがあるよ。SWE-benchが測らないことについてのいいスレッドがXにあるよ: https://x.com/brhydon/status/1953648884309536958

みんなが言ってるのは、急にCodex CLI w GPT-5 CodexがClaude Codeより良いってこと?信じがたいな。

パッケージへのリファクタリングに関する小さな提案:ファイルを手動で移動させて。Codexに「以前は別の場所にあったから、ビルドできるように直して」って言えばいいよ。ファイル移動の概念は、Codex(や他のCLI)がまだうまく処理できてないみたい。(削除についても同じ。移動や削除をgitコミットで追跡するのはほぼ成功したことがない。)

これって、プロンプトの一部が何らかの形で上位レベルに移動したり、他のところに組み込まれたりしてるのかな…?

Codex CLI IDEは本当に使いやすい、クオリティに感動してる。少し前に試して気に入らなかったなら、vscode拡張を通じて再度試してみて。プラスで使える分がたっぷりあるよ。Claude Code Maxのサブスクリプションをやめて、ChatGPT Proの$200プランにしたんだ。すごく速いし、まだ制限には引っかかってないよ。

今Cursorの$20プランを使ってるんだけど、15日でレート制限に引っかかっちゃった(だから残りの月は追加料金を払ってる)。どうしたらいいと思う?

え、何?今はAPIの代わりにClaude Codeみたいなサブスクリプションもできるの?

CLI IDEって何?

自分はaiderとgemini proを使ってるよ。これが開発したプロジェクトだよ: https://aretecodex.pages.dev/tools/

すごいね!最近、共有背景のアニメーションを作ってて、ClaudeとCodexを試してみたんだ。共有背景っていうのは、みんなのカーソルの位置に応じてページの背景が変わる感じね。昨日はどっちも苦戦してて、Claudeの方がちょっと進んでたかな。彼らの一番の問題は「クリエイティブ」になることだったんだけど、解決策がちょっと「お決まり」な感じで、シミュレーションを作るのにも苦労してた。今日、Codexでも同じ問題を試してみたけど、デザインはまだちょっと物足りなかったけど、シミュレーションの方はかなり良くなったよ。

「クリエイティブ」であることが彼らの最大の問題だった(彼らの解決策はかなり「ストック」だった) LLMがデザインしたUIは、追加のプロンプトを与えないと常に一般的/ストックに見えるよ。LLMは特定のデザインパターンを記憶していて、何を望んでいるかを指定しないと、常に特定の見た目にデフォルト化されちゃう。プロンプトに追加のUI指示を加えてみて。どんなカラースキームが欲しいか、どんなデザインの選択が好みかを伝えてみて。既存のアプリのデザインをスキャンして、それに合わせるように指示するのもいいよ。そうすれば、結果がずっと良くなることが多いから。

コードレビューのやつは、AIを使った開発で一番好きなUXかも。大体は邪魔にならず、良いコメントをくれるし。もしコードベースをナビゲートしてテストを修正できるなら、例えば新しいケースを追加したり、数行変えてテストを壊したりできるといいな。これでテストが実際にアサーションを行って役に立ってるか確認できるし。こういう徹底的なレビューは、AI支援の開発よりも自分にとって一番メリットがあると思う。

過去2週間の観察から言うと、Claude Codeは劇的に悪化してて、使用量のクォータもすごく低い。一方でOpenAI Codexは素晴らしくて、比較するとかなり寛大な使用量のクォータがある。もし1ヶ月くらい試してない人がいたら、Codex CLIを試してみて。

最終的にユーザーにとって大事なのは、絶対に閉じ込められないこと。常にこれらの製品を比較して、最安値と最高のパフォーマンス比を狙うべきだよ。去年はどの会社も競争してたけど、今のところ新しいものは出てこないね。「一つのサービスに固執する理由はない」。でも、サービスはそのSaaS収益のために、君を引き留めようと必死になるだろうね。

[遅延]

このスレッドを読んで、他の人たちもClaude CodeからCodexに切り替えてるのが面白いね。Claude Codeは、圧倒されるとモック実装や一般的なフェイクを作る大きな問題にぶつかってた。悪化しないように入力プロンプトを調整するのにかなりの時間を費やしたけど、結局切り替えたよ。Codexは完全に整備されたコードベースで動くから、単純な比較にはならないけど、切り替えてからの全体的な体験はかなり良くなった。

質問なんだけど、Codex CLIでClaudeの「ノーマルモード」に相当するものをどうやって使うの? vibeコードで編集したりツールを使ったりするか、プランモードにするかのどちらかしかないのが超イライラする。AかBをやってもいいか聞いてくれる中間がないのが理解できない。コピー&ペーストで編集をするか、自動で受け入れるかの選択をしたいわけじゃないのに…

普段は、計画を立てるように指示して、承認するまでコーディングをしないようにしてる。計画を進める指示を出す前に、何度かそのループを繰り返すことが多いかな。時々、これらのLLMは計画を「忘れ」ることがあるから、計画を他のところにコピー&ペーストするのが好き。大きなマイルストーンごとにテストを行うことが多いよ(自分に渡されたり、ビルドやユニットテストを行ったりする)。

今週末に初めてCodexを試してみたんだけど、結果は…変だった。これからどうなるか楽しみだね。 (すごくシンプルなプロンプトで、Docker Composeを使ってRailsアプリを立ち上げて、ホームページとDeviseを作ったんだけど、bootstrap.shの中で各ファイルをハードコーディングしちゃって、最初からファイルを作るわけじゃなかったんだ。)

先月chatgptを買ったんだけど、今のOpenAIはいい感じだと思う。特に体験が良くて、例えばClaudeのよりも声モードが優れてるし、以前の混乱したモデル名よりも新しいモデル名の方が好き。全体的にシンプルになったよ。一般的なアシスタントとしても、Claudeはコード以外のことにはあまり良くないしね。OpenAIはツールをどんどんリリースしてて、信頼性も高い感じ。