開発者のためのGPT-5

2025年8月8日原文(openai.com)

概要

GPT-5 はOpenAIのAPIプラットフォームでリリースされた最新のAIモデル
コーディングやエージェントタスクで 最先端の性能 を発揮
フロントエンド開発 や長時間の複雑なエージェント作業にも強み
新しいAPIパラメータで 応答の制御性 が向上
gpt-5, gpt-5-mini, gpt-5-nano の3サイズ展開で柔軟な選択肢

GPT-5の登場と特徴

GPT-5 はAPIプラットフォーム向けにリリースされたOpenAIの最新モデル
コーディングやエージェントタスクで 最先端（SOTA） のスコア達成
- SWE-bench Verifiedで 74.9%
- Aider polyglotで 88%
バグ修正やコード編集、複雑なコードベースの質問対応が得意
詳細な指示 に高精度で従うステアラブルな設計
フロントエンド開発 でOpenAI o3を70%の確率で上回る実績
スタートアップやエンタープライズとの協力による 実践的なタスク学習
Cursor や Vercel などから高評価を獲得

エージェントタスクとツール連携の進化

長時間・複雑なエージェントタスク でSOTA達成
- τ2-bench telecomで 96.7% のスコア
複数ツールの連携 （直列・並列）を高精度で実行
ツール指示の厳密な遵守 とエラー対応力の向上
長文コンテキストからの 情報検索能力 の強化
Manus や Notion など企業からの高評価

新API機能とモデルバリエーション

応答の長さを調整できる verbosityパラメータ 追加
reasoning_effortパラメータ で推論量を最小化し高速応答が可能
カスタムツール 対応で、JSON以外のプレーンテキスト呼び出しもサポート
gpt-5, gpt-5-mini, gpt-5-nano の3種で性能・コスト・レイテンシの選択肢
ChatGPT内のGPT-5はシステム的に異なる構成

コーディング分野での性能

SWE-bench Verifiedで o3より高スコア かつ効率的
- 出力トークン22%減、ツールコール45%減
Aider polyglotで エラー率1/3に削減
複雑なコードベースの理解力 と質問対応力
Webアプリのフロントエンドコード 生成で美的・技術的に高評価
Cursor、Windsurf、GitHub Copilot、Codex CLI などでの実績

エージェントタスクでの進化

指示追従性能 が大幅向上（COLLIE, Scale MultiChallengeで高得点）
ツールコールの精度・柔軟性 が向上
進捗報告や中間要約 も自動で出力可能
τ2-bench telecomで 97% の記録的スコア

長文コンテキスト・ファクトチェックでの強化

OpenAI-MRCR で長文情報検索性能が大幅向上
BrowseComp Long Context ベンチマークをオープンソース化
128K–256Kトークンの入力で 正答率89%
最大272,000トークンの入力 と 128,000トークンの出力 に対応
LongFact, FactScore で80%の事実誤り削減

安全性と自己認識の向上

自己の限界認識 と予期せぬ質問への対応力の強化
ヘルスケア関連の質問 でも高精度
高リスクな利用時は 検証推奨

新しいAPIパラメータの使い方

reasoning_effort で推論時間・品質を調整
- minimalで高速応答、highで高品質応答
verbosity で応答の長さを制御
- 明示的な指示がある場合はそちらを優先

このように、 GPT-5 はコーディング・エージェントタスク・長文処理・安全性の全てで大幅な進化を遂げており、 開発者の多様なニーズに柔軟に対応 できる新しいAI基盤として注目されています。

Hackerたちの意見

GPT-5は長時間のエージェントタスクでも優れていて、たった2ヶ月前にリリースされたτ2-benchのテレコムでSOTA結果（96.7%）を達成してる。でも、航空会社バージョンではo3よりも劣ってるね。文章は完全に選り好みしてる。

└

でも、コストはどうなんだろう？私の理解ではo3はかなり高い運用コストがかかる。GPT-5はもっと安いの？もしそうなら、性能がo3に近くて安いなら、それでも良い改善になるかも。

└

まあ…彼ら自身がその情報を投稿に含めてるから、あんまり驚きじゃないよね。

OpusとGPT-5の間には、ソフトウェア開発の専門知識に大きな違いがあるとは思えない。私がこのシステムを使おうとする中でどうしても引っかかるのは、長時間のタスクにおけるコンテキストの認識なんだ。非常に複雑で、コンテキストを超えた目標を達成するのは、私にとって日常的（多分毎時間）な出来事。私が気にしているのは、これらのシステムがコンテキストをどう管理して、長期間にわたってどうやって軌道を維持するかってこと。どの評価がそれを追跡してるの？それが実際のソフトウェアエンジニアリングにとって最も重要な指標のように思えるし、一発勝負の祈りとは違うんだ。

└

個人的には、コーディングのためにもう10倍の改善を待とうと思ってる。今のままだと、明らかにそれが必要だから。

└

長時間のタスクにおけるコンテキスト認識は、長時間のタスクを持ってないよ、LLMでもそうじゃなくても。問題を小さくて管理しやすい部分に分けて、それから組み立てるんだ。人間もLLMも長時間のタスクには向いてない。

└

もしGPT-5が本当に400kのコンテキストを持っているなら、それがOpusを意味のある形で超えるために必要な全てかもしれない。

└

「OpusとGPT-5の間には、ソフトウェア開発の専門知識に大きな違いがあるとは言えない。もしソフトウェア開発の専門知識に大きな違いがなければ、GPT-5はほぼ10倍安いので、Opusを圧倒することになる。」

└

ちょっと曖昧だけど、OPがこれを指摘してた: >「GPT-5は、今までリリースした中で最強のコーディングモデルです。コーディングのベンチマークや実際の使用ケースでo3を上回り、Cursor、Windsurf、GitHub Copilot、Codex CLIのようなエージェント的なコーディング製品で輝くようにファインチューニングされています。GPT-5は私たちのアルファテスターを驚かせ、多くのプライベートな内部評価で記録を打ち立てました。」

└

完全に同意だね。今のところ、フロンティアのLLMは、十分なコンテキストがあれば、僕が投げるほとんどの問題を解決できると思ってる。失敗したときに彼らが何のコンテキストを欠いているのかを考えるのに、ほとんどの時間を使ってるんだ。だから、僕にとって一番助かるのは、もっと集中したコンテキスト収集の能力だね。僕の使い方では、関連するコードファイルや問題、ディスカッション、PRに本当に焦点を当てる必要がある。GPT-5がこの点で進展をもたらしてくれることを期待してるよ。ベンチマーク結果には完全には反映されていないけど、Opusよりも安く同じような結果を出せるのは確かに期待できるね。

└

僕の会社（Charlie Labs）では、数週間前にアクセスを得てから、長時間のタスクにおけるコンテキスト認識で素晴らしい成果を上げてるよ。10個の実際のGithubの問題を解決する評価を行って、Claude Codeと比較したんだけど、差が驚くほど大きかった。こちらに僕たちのまとめがあるよ: https://charlielabs.ai/research/gpt-5 たいてい、僕たちのタスクは30〜45分かかるし、LinearやGithubでの大規模なコンテキストスレッドを扱っても、途中で方向が変わってもつまずくことはないんだ。10個の問題はそんなに包括的じゃないけど、方向性としては非常に印象的だったし、今後のパフォーマンスを理解するためにこれを基にしていくつもりだよ。

ここ1週間ほどで、カーソルやクロードコード、他のいくつかのツールを使って約70時間は遊んでる（新しいオブsessionになっちゃった）。今の性能と信頼性には驚かされてる。ただ、現実的には、私の経験上、実際に信頼できる形で機能するモデルはクロードモデルだけなんだ。どんなベンチマークが何を言おうと、実際に重要なのは実際の使用だから。新しいGPTモデルがこのユースケースでちゃんと機能することを本当に願ってる。競争があって、価格もいいからね。

Hacker Newsで議論の続きを見る

ハクソク