世界を動かす技術を、日本語で。

開発者のためのGPT-5

概要

  • GPT-5 はOpenAIのAPIプラットフォームでリリースされた最新のAIモデル
  • コーディングやエージェントタスクで 最先端の性能 を発揮
  • フロントエンド開発 や長時間の複雑なエージェント作業にも強み
  • 新しいAPIパラメータで 応答の制御性 が向上
  • gpt-5, gpt-5-mini, gpt-5-nano の3サイズ展開で柔軟な選択肢

GPT-5の登場と特徴

  • GPT-5 はAPIプラットフォーム向けにリリースされたOpenAIの最新モデル
  • コーディングやエージェントタスクで 最先端(SOTA) のスコア達成
    • SWE-bench Verifiedで 74.9%
    • Aider polyglotで 88%
  • バグ修正やコード編集、複雑なコードベースの質問対応が得意
  • 詳細な指示 に高精度で従うステアラブルな設計
  • フロントエンド開発 でOpenAI o3を70%の確率で上回る実績
  • スタートアップやエンタープライズとの協力による 実践的なタスク学習
  • CursorVercel などから高評価を獲得

エージェントタスクとツール連携の進化

  • 長時間・複雑なエージェントタスク でSOTA達成
    • τ2-bench telecomで 96.7% のスコア
  • 複数ツールの連携 (直列・並列)を高精度で実行
  • ツール指示の厳密な遵守 とエラー対応力の向上
  • 長文コンテキストからの 情報検索能力 の強化
  • ManusNotion など企業からの高評価

新API機能とモデルバリエーション

  • 応答の長さを調整できる verbosityパラメータ 追加
  • reasoning_effortパラメータ で推論量を最小化し高速応答が可能
  • カスタムツール 対応で、JSON以外のプレーンテキスト呼び出しもサポート
  • gpt-5, gpt-5-mini, gpt-5-nano の3種で性能・コスト・レイテンシの選択肢
  • ChatGPT内のGPT-5はシステム的に異なる構成

コーディング分野での性能

  • SWE-bench Verifiedで o3より高スコア かつ効率的
    • 出力トークン22%減、ツールコール45%減
  • Aider polyglotで エラー率1/3に削減
  • 複雑なコードベースの理解力 と質問対応力
  • Webアプリのフロントエンドコード 生成で美的・技術的に高評価
  • Cursor、Windsurf、GitHub Copilot、Codex CLI などでの実績

エージェントタスクでの進化

  • 指示追従性能 が大幅向上(COLLIE, Scale MultiChallengeで高得点)
  • ツールコールの精度・柔軟性 が向上
  • 進捗報告や中間要約 も自動で出力可能
  • τ2-bench telecomで 97% の記録的スコア

長文コンテキスト・ファクトチェックでの強化

  • OpenAI-MRCR で長文情報検索性能が大幅向上
  • BrowseComp Long Context ベンチマークをオープンソース化
  • 128K–256Kトークンの入力で 正答率89%
  • 最大272,000トークンの入力128,000トークンの出力 に対応
  • LongFact, FactScore で80%の事実誤り削減

安全性と自己認識の向上

  • 自己の限界認識 と予期せぬ質問への対応力の強化
  • ヘルスケア関連の質問 でも高精度
  • 高リスクな利用時は 検証推奨

新しいAPIパラメータの使い方

  • reasoning_effort で推論時間・品質を調整
    • minimalで高速応答、highで高品質応答
  • verbosity で応答の長さを制御
    • 明示的な指示がある場合はそちらを優先

このように、 GPT-5 はコーディング・エージェントタスク・長文処理・安全性の全てで大幅な進化を遂げており、 開発者の多様なニーズに柔軟に対応 できる新しいAI基盤として注目されています。

Hackerたちの意見

GPT-5は長時間のエージェントタスクでも優れていて、たった2ヶ月前にリリースされたτ2-benchのテレコムでSOTA結果(96.7%)を達成してる。でも、航空会社バージョンではo3よりも劣ってるね。文章は完全に選り好みしてる。

でも、コストはどうなんだろう?私の理解ではo3はかなり高い運用コストがかかる。GPT-5はもっと安いの?もしそうなら、性能がo3に近くて安いなら、それでも良い改善になるかも。

まあ…彼ら自身がその情報を投稿に含めてるから、あんまり驚きじゃないよね。

OpusとGPT-5の間には、ソフトウェア開発の専門知識に大きな違いがあるとは思えない。私がこのシステムを使おうとする中でどうしても引っかかるのは、長時間のタスクにおけるコンテキストの認識なんだ。非常に複雑で、コンテキストを超えた目標を達成するのは、私にとって日常的(多分毎時間)な出来事。私が気にしているのは、これらのシステムがコンテキストをどう管理して、長期間にわたってどうやって軌道を維持するかってこと。どの評価がそれを追跡してるの?それが実際のソフトウェアエンジニアリングにとって最も重要な指標のように思えるし、一発勝負の祈りとは違うんだ。

個人的には、コーディングのためにもう10倍の改善を待とうと思ってる。今のままだと、明らかにそれが必要だから。

長時間のタスクにおけるコンテキスト認識は、長時間のタスクを持ってないよ、LLMでもそうじゃなくても。問題を小さくて管理しやすい部分に分けて、それから組み立てるんだ。人間もLLMも長時間のタスクには向いてない。

もしGPT-5が本当に400kのコンテキストを持っているなら、それがOpusを意味のある形で超えるために必要な全てかもしれない。

「OpusとGPT-5の間には、ソフトウェア開発の専門知識に大きな違いがあるとは言えない。もしソフトウェア開発の専門知識に大きな違いがなければ、GPT-5はほぼ10倍安いので、Opusを圧倒することになる。」

ちょっと曖昧だけど、OPがこれを指摘してた: >「GPT-5は、今までリリースした中で最強のコーディングモデルです。コーディングのベンチマークや実際の使用ケースでo3を上回り、Cursor、Windsurf、GitHub Copilot、Codex CLIのようなエージェント的なコーディング製品で輝くようにファインチューニングされています。GPT-5は私たちのアルファテスターを驚かせ、多くのプライベートな内部評価で記録を打ち立てました。」

完全に同意だね。今のところ、フロンティアのLLMは、十分なコンテキストがあれば、僕が投げるほとんどの問題を解決できると思ってる。失敗したときに彼らが何のコンテキストを欠いているのかを考えるのに、ほとんどの時間を使ってるんだ。だから、僕にとって一番助かるのは、もっと集中したコンテキスト収集の能力だね。僕の使い方では、関連するコードファイルや問題、ディスカッション、PRに本当に焦点を当てる必要がある。GPT-5がこの点で進展をもたらしてくれることを期待してるよ。ベンチマーク結果には完全には反映されていないけど、Opusよりも安く同じような結果を出せるのは確かに期待できるね。

僕の会社(Charlie Labs)では、数週間前にアクセスを得てから、長時間のタスクにおけるコンテキスト認識で素晴らしい成果を上げてるよ。10個の実際のGithubの問題を解決する評価を行って、Claude Codeと比較したんだけど、差が驚くほど大きかった。こちらに僕たちのまとめがあるよ: https://charlielabs.ai/research/gpt-5 たいてい、僕たちのタスクは30〜45分かかるし、LinearやGithubでの大規模なコンテキストスレッドを扱っても、途中で方向が変わってもつまずくことはないんだ。10個の問題はそんなに包括的じゃないけど、方向性としては非常に印象的だったし、今後のパフォーマンスを理解するためにこれを基にしていくつもりだよ。

ここ1週間ほどで、カーソルやクロードコード、他のいくつかのツールを使って約70時間は遊んでる(新しいオブsessionになっちゃった)。今の性能と信頼性には驚かされてる。ただ、現実的には、私の経験上、実際に信頼できる形で機能するモデルはクロードモデルだけなんだ。どんなベンチマークが何を言おうと、実際に重要なのは実際の使用だから。新しいGPTモデルがこのユースケースでちゃんと機能することを本当に願ってる。競争があって、価格もいいからね。

来週、GPT-5についての評価を聞きたくて返信したよ。

どれくらいのプロダクトを作ったら「良い」「信頼できる」と言えるの?私の経験では、70時間で「動く」PoCができるけど、初期の機能セットを超えて、例えばAPIの初稿を作ると、機能を重ね始めたときにうまくいくのかな?

ここも同じだけど、私はRooを使ってて、ClaudeとGemini pro 2.5がうまくいってるよ。

「とはいえ、私の経験では、実際に信頼できる方法で動作するモデルはClaudeモデルだけだ。最近のCursor(1.4)のツールアップデートが、Geminiのようなモデルでのツール使用をかなり信頼性の高いものにしたようだ。以前は簡単なファイル編集すら苦労していたけど、今はほぼ毎回編集がうまくいく。」

魔法はプロンプトやツールの使い方、ファインチューニングにあるね。OpenAIの推論モデルはより良いコードを書くし、問題解決も得意だけど、Claudeのコードはもっと役立つ製品だと思う。モデル自体は弱いけどね。

これのいくつかはスタックに関係してるかもね。最近、Convexについてのt3.ggの動画を見たんだけど、その性質がAIに正しい答えを出させることが多いみたい。ここ数日それを試してみたけど、彼に同意すると思う。開発のワークフローは根本的に変わると思う。これを最大限に活用するには、複数のAIを並行して動かす必要があるから、ただコーディングに飛び込むのではなく、PMツールでチケットをたくさん書いて(今のところLinearがレースに勝ってるみたい)、どれがマージコンフリクトを起こさずに並行して実行できるかを考えたり、AIに考えさせたりして、複数のチケットをIDEやターミナルに引っ張り込んで、タブを切り替えながら必要に応じて作業することになると思う。今はまだこれを実行してないけど、切り替えが必要だと感じてるし、Warpがこのようなワークフローに最適かもしれないと思ってる。必要なときにIDEに切り替えて編集することもあるだろうしね。あ、これを実現するにはgit worktreesを使う必要があるよ。

もしモデルがベンチマーク通りに優れているなら、価格は素晴らしいね:入力:$1.25 / 1Mトークン(キャッシュ:$0.125/1Mトークン)出力:$10 / 1Mトークン。参考までに、Claude Opus 4.1は入力トークンが$15 / 1M、出力トークンが$75/1Mだ。大きな疑問は、ツールの扱いがどれくらい上手くいくかってこと(つまり、Claude Codeと比べて)。初期デモは良さそうだけど、Tau2-bench航空ではo3よりもパフォーマンスが劣るから、まだ判断は保留だね。

出力: $10 / 1Mトークン これは面白いね。明らかに(少なくとも)2つの基盤モデルから成る「モデル」に対して、フラットなトークン価格を使ってるのが。片方はもう一方よりもずっと計算コストが低いし、プロンプトを通じてどのモデルが使われるかをある程度影響できるのも興味深い。おそらくこの価格モデルは、基盤モデルがどれくらい使われるかの予測に基づいてるんだろうけど、それが本当に当たるのか、ユーザーが期待以上に良いモデルを使おうとするのか、あるいは価格があまりにも膨らんでいて関係ないのか、気になるな。

コンテキストフリー文法と正規表現のサポートはワクワクするね。llguidanceのLarkみたいなCFGとの違いがあるのか、あるとしたら何なのか気になるな。あれはOpenAI APIのJSONスキーマを支えてるし。

それが発表の中で唯一ワクワクした部分だったよ、ハハ。早く触ってみたいな。もうGoogleやOpenAIのような他社の構造化出力APIでいくつかの問題に直面してるけど、彼らはこの点で素晴らしい仕事をしてるね。

RAGシナリオのためにgpt-5-miniを試してみてるけど、今のところかなり良い感じ。gpt-5-miniをreasoning_effort="minimal"で使ったら、他のモデルが生成したハルシネーションをやっと抑え込んでくれたよ。投稿にスクリーンショットもあるから見てみてね: https://bsky.app/profile/pamelafox.bsky.social/post/3lvtdyvb... 次は正式な評価をするつもり。

正直言って、これが一番の改善点だと思う。ツールをたくさん呼び出す作業をしているんだけど、モデルが偽のツールを作り出すのは大きな問題なんだ。さらに悪いことに、モデルがツール呼び出しを生成せずに直接応答を作り出すこともある。新しいトレーニング報酬が幻覚を抑えたりツールをスキップするのを防いだりして、いい方向に進むことを願ってる。

Q: プロダクトマネージャーって何をするの? GPT4: エンジニアリング、営業、マーケティング、財務、外部パートナー、サプライヤー、顧客と協力して……など。 GPT5: わからない。これを言った瞬間、AIは啓発された。

ライブストリームで見せられたGitHubの問題が注目を集めてるね: https://github.com/openai/openai-python/issues/2472 以前に人間によって(解決しようと)されたけど、まだマージされてない… OpenAIがアクセスできる素晴らしいコーディングモデルがたくさんあるのに、SDKチームはまだニーズに対して小さすぎる気がする。

誰か、なぜgpt-5を含む推論モデルから温度やtop-pのパラメータコントロールが削除されたのか説明してくれない?これがあると、一貫性の高い小さなタスクを構築するのが難しくなる気がするし、APIでは特定のタスクを低温に設定できる機能をすごく重視してるんだ。

「ウェブアプリのフロントエンドコードを生成する際、GPT-5はより美的志向で、野心的かつ正確です。o3との比較では、テストした人たちの70%がGPT-5を好みました。」これ、すごく興味深いね。GPT-5を試すのが楽しみ!