Codexの研究プレビュー

2025年5月17日原文(openai.com)

概要

Codexは クラウド型ソフトウェアエンジニアリングエージェント で、複数タスクを並行処理可能
ChatGPT Pro、Team、Enterprise ユーザーが本日から利用でき、Plus/Eduにも順次展開予定
codex-1（OpenAI o3ベース）による 人間らしいコード生成 と安全性・透明性の強化
セキュアなクラウド環境で リポジトリ操作・テスト・レビュー を自動化
今後は より柔軟なAIエージェント連携 や開発ツール統合を強化予定

Codex：クラウド型ソフトウェアエンジニアリングエージェントの研究プレビュー

Codexの概要と主な特徴

Codexは クラウドベースのAIエージェント で、同時に多数のコーディングタスクを処理することが可能
利用開始： ChatGPT Pro、Team、Enterprise ユーザーが本日からアクセス可能、 Plus/Edu にも近日対応予定
各タスクは 独立したクラウドサンドボックス環境 で実行され、リポジトリが事前ロードされる設計
Codexの主な機能：
- 新機能の実装、コードベースの質問応答、バグ修正、プルリクエストの提案などを自動化すること
- 各タスクごとに 分離された環境 でファイルの読み書きやコマンド（テスト、リンター、型チェッカー等）の実行を行うこと
タスクの完了までの時間は 1〜30分程度 で、リアルタイム進捗監視が可能
完了後は 証拠としてターミナルログやテスト出力 を添付し、変更内容の追跡・検証を容易にすること

Codexの技術基盤と運用方法

Codexは codex-1 （OpenAI o3ベース、ソフトウェアエンジニアリング最適化済み）で動作
強化学習を用いて 実際のコーディングタスク で訓練され、人間のコーディングスタイルやPR（プルリク）指向を再現すること
ChatGPTのサイドバー からタスク指示や質問が可能
AGENTS.mdファイルにより、 プロジェクト特有のルールやテスト方法 をCodexに指示することが可能
開発環境やテスト体制、ドキュメントが整備されたリポジトリ で最良のパフォーマンスを発揮すること

安全性・信頼性への配慮

Codexは セキュリティと透明性 を重視して設計
生成コードの 手動レビュー・検証 を推奨し、テスト失敗や不明点は明示的にユーザーへ通知すること
悪意あるソフトウェア開発の防止 に特化した訓練とポリシー強化を実施
エージェントは 完全に隔離されたクラウドコンテナ 内で動作し、インターネットアクセス不可
- 外部Webサイト・API・他サービスへのアクセスは遮断すること

先行利用事例と効果

OpenAI社内では リファクタリング・テスト作成・バグ修正 等の反復作業や新機能の足場作りに活用
Cisco ：エンジニアリングチームのアイデア実現・フィードバック提供
Temporal ：新機能開発・デバッグ・テスト自動化・大規模リファクタリングの促進
Superhuman ：テストカバレッジ向上・統合失敗修正・PMによる軽微なコード変更
Kodiak ：デバッグツール作成・テストカバレッジ向上・自動運転技術開発の加速
複数エージェントによる並列タスク割り当て や多様なプロンプトの実験を推奨すること

Codex CLIのアップデート

Codex CLIは ローカル端末で動作する軽量オープンソースエージェント
本日より codex-1の小型版（o4-miniベース） がCLIのデフォルトモデルとして利用可能
- 低遅延のコードQ&A・編集に最適化し、APIでもcodex-mini-latestとして提供
ChatGPTアカウント連携 でAPIキー設定が簡素化、Plus/Proユーザーには 無料APIクレジット を期間限定で付与
CLIからのタスク割り当てや今後のツール連携強化を計画すること

利用可能性・価格・制限事項

Codexは 数週間は追加料金なしで広く提供、その後は 利用制限・柔軟な従量課金 へ移行予定
codex-mini-latest モデルはAPI経由で利用可能（入力100万トークン/$1.50、出力100万トークン/$6、プロンプトキャッシュ75%割引）
現状の制限：
- フロントエンド作業用の画像入力や、タスク中のエージェントへの指示変更は未対応
- リモートエージェントへの委任は対話的編集より時間がかかるため慣れが必要
今後は 非同期コラボレーションや複数エージェント連携 の進化を予定

今後の展望

開発者が 自分の得意分野に注力し、残りをAIエージェントに委任 する未来を目指すこと
リアルタイム協働と非同期タスク委任 の融合が進む見込み
Codexエージェントは IDEや日常ツールとの統合 が進み、質問・提案・長時間タスクの委任が一元化されること
タスク途中でのガイダンスや進捗通知、より柔軟なワークフロー の導入を計画
ソフトウェアエンジニアリング分野でのAI生産性向上 と、その社会的影響の研究をパートナーと推進すること

付録・参考情報

codex-1の システムメッセージ を公開し、デフォルト動作やカスタムワークフローへの調整方法を明示すること
AGENTS.mdファイルに記載されたテストを自動実行すること等、カスタマイズ可能

本記事はOpenAI Codexのリサーチプレビューに関する公式発表の要点を日本語で整理・編集したものです。

Hackerたちの意見

以前、銀行で働いてたんだけど、法務チームがコンプライアンス関連の問題でアプリにちょっとした変更をお願いしてきたんだ。今は自分たちで直せるようになったみたいで、彼らもすごく誇りに思ってるだろうし、嬉しいと思うよ。

└

法務が何かに触れるときは、コードを実行してテストする能力とコードレビューが必要だと思うから、多分無理だね。

└

それは面白い新しいバグトラッカーになるね：会社の誰でもバグを報告したり、将来のリクエストを追加したりできるようになる。もしモデルが自動で解決できれば完璧だけど、そうでなければ誰かが引き継ぐかも。興味深いのは、どのコード変更が法的に問題ないか、会社が望む基準に合っているかってことだね。だから、非技術的なコード/問題レビューアーはすごく重要で普遍的な仕事になるだろうね。

└

法務チームがコード変更を推進してるなんてことは絶対ないよ。

Assembledのチームのエンジニアたちと一緒にCodexのアルファテストに参加してるんだけど、かなり印象的だよ。これまでCursorやClaude Codeみたいなローカルエージェントを使ってたから、あんまり期待してなかったんだけど、Codexは数カ所で光ってるね。並行タスク実行ができて、数十個の小さな編集（リファクタリング、テスト、ボイラープレート）を同時に実行できるのがすごくいい。CursorやClineではなかなかできないことだから、同時にたくさんのタスクを処理できるのは超便利。まるでステロイドを使ったジュニアエンジニアみたいで、ファイルや関数を指定して変更を伝えるだけで、大体のPRを自動で作ってくれる。プロダクション準備にはまだたくさんの作業が必要だけど、今や無限のジュニアエンジニアがそれぞれ違うことをやってる感じだよ。モデルの品質は良いけど、他のモデルと比べてそんなに優れてるとは言えないかな。Cursor + Gemini 2.5-proとの並行テストでは、名前やスタイル、ロジックは比較的区別がつかないから、品質は基準を満たしてるけど、まだ超えてはいないね。

└

プロダクション準備にはまだたくさんの作業が必要だけど、今や無限のジュニアエンジニアがそれぞれ違うことをやってる感じだよ。ジュニア開発者の問題は、完全に自立してないから、彼らを指導したりコードをレビューしたりするのに結構な時間を取られることだよね。もし彼らに簡単にアクセスできても、そのオーバーヘッドがすぐにボトルネックになっちゃうと思う。これらのバーチャル開発者をたくさん管理するのは大変だと思う？それとも結構自立してるのかな？

└

Cursorの利点は、フィードバックループが短くて、ライブで見ながらいつでも介入できるところだよね。Codexはそんなに優れたモデルで、ほとんどバックグラウンドエージェントの方向性を取る価値があるのかな？それだとフィードバックループが長くなるように見えるけど。

└

並行タスク実行ができて、数十個の小さな編集を同時に実行できるのがすごくいい。 > まるでステロイドを使ったジュニアエンジニアみたいで、ファイルや関数を指定して変更を伝えるだけで、大体のPRを自動で作ってくれる。プロダクション準備にはまだたくさんの作業が必要だけど、無限のジュニアエンジニアがそれぞれ違うことをやってる感じだよ。これのメリットは何なの？「AIがプログラマーを置き換える」っていう見出しのためのギミックみたいに聞こえるけど。実際、LLMは数秒でタスクを完了するし、時間がかかるのはタスクを指定して、それをレビューして修正する部分なんだよね。プロセスの最も速い部分を並行処理する意味は何なの？

└

これまでCursorやClaude Codeみたいなローカルエージェントを使ってたから、あんまり期待してなかったんだけど。もしよかったら、Claude Codeの強みと限界はCodexと比べてどうだった？Codexの際立った特徴として並行タスク実行を挙げてたけど、Claude Codeでは特に問題だったの？Claude Codeがあなたのチームにどのように機能したかについての他の洞察も価値があるよ。今のところClaude Codeには満足してるし、今月初めにOAIがリリースしたCodex CLIツールにはちょっと期待外れだったんだ。

└

並列タスク実行: 小さな編集（リファクタリング、テスト、ボイラープレート）を何十個もバッチ処理して、コンテキストを切り替えずに同時に実行できるんだ。これは最近のZedのアップデートの一部でもあるよ。私は通常、自分のClaude APIキーでZedを使ってる。

└

カーソルは今、並列タスクをサポートしてるんじゃない？個人的にはあまり使ってないけど、友達が使ってるよ。一人のバカの視点を聞きたいなら、モデルの質に超集中してほしい。今の障壁はツールじゃなくて、モデルが大量の作業に対して十分じゃないってこと。もっと重要なのは、彼らはまだジュニア開発者よりもインターンに近いってこと。簡単なタスクをやるにも、たくさんの指導や常にフィードバック、厳しい目が必要なんだ。o1プレビューやプロレベルの質で、すごく高くないモデルが見たいな。特にプログラミングの多くは文法の問題じゃなくて、根底にある概念を理解することだから、そこが弱いんだよね。今はツールがどうでもいいから、ほんとに良いモデルを、腎臓を売らなくても手に入れたい。

└

AIエージェントの会社のCTO（AIラボと協力してるところ）が、エージェントはちゃんと動くって言ってるよ。新しいことは何もないってさ。

Hacker Newsで議論の続きを見る

ハクソク