世界を動かす技術を、日本語で。

GPT-5.4

概要

  • GPT‑5.4 はChatGPT、API、Codexで利用可能な最新・最強のフロンティアモデル
  • 推論・コーディング・エージェントワークフロー の大幅な進化
  • プロフェッショナル業務 に特化した高精度・高効率なパフォーマンス
  • ツール・ソフトウェア連携 や長文コンテキスト処理が強化
  • 事実性・エラー削減・画像理解 も大幅に向上

GPT‑5.4リリース概要

  • ChatGPT(GPT‑5.4 Thinking)・API・Codex 向けにリリース
  • GPT‑5.4 Pro は複雑なタスク向けの最大性能モデル
  • 推論・コーディング・エージェント機能 を一体化したフロンティアモデル
  • GPT‑5.3‑Codex の業界最高レベルのコーディング能力を継承・強化
  • ツール・ソフトウェア環境・プロフェッショナル業務 での動作性向上

ChatGPTでの進化

  • 思考プロセスの事前提示 機能を新搭載
    • 途中でユーザーが指示を調整可能
  • 深層Webリサーチ・長文コンテキスト維持 が大幅に改善
  • 回答品質・速度・関連性 の向上

Codex・APIでの新機能

  • 業界初の汎用モデル として ネイティブなコンピュータ操作能力 を搭載
  • 最大1Mトークン のコンテキスト対応
  • ツール検索機能 により大規模ツール連携が効率化
  • トークン効率最適化 により従来比で高速化・コスト削減

ベンチマーク・実績

  • GDPval (44職種の知識ワーク評価)で 83.0% の業界最高記録
  • SWE-Bench ProOSWorld-Verified 等各種ベンチマークで従来モデルを大幅上回る
  • スプレッドシート・プレゼン・ドキュメント作成 の精度と美観が向上
  • 事実性・エラー低減 :個別主張の誤り33%減、全体回答の誤り18%減(GPT‑5.2比)

コンピュータ操作・開発者向け機能

  • Playwright等のライブラリ を駆使したコード生成・操作
  • スクリーンショット解析・マウス/キーボード操作 の自動化
  • 開発者向けメッセージ で行動や安全性の調整が可能
  • ツール呼び出しの効率化 で大規模エコシステムにも対応

画像・ドキュメント理解の進化

  • 高解像度画像 (最大10.24Mピクセル)の完全忠実入力に対応
  • MMMU-Pro/OmniDocBench 等で視覚理解・文書解析能力が向上
  • ローカライズ精度・クリック精度 も大幅改善

コーディング・ツール連携の効率化

  • /fastモードpriority processing で最大1.5倍のトークン速度
  • Playwright (Interactive) スキルでWeb/Electronアプリの視覚デバッグが可能
  • ツール検索機能 でトークン消費を最大47%削減、レスポンス高速化
  • Toolathlon等での多段階ワークフロー を効率的に処理

エージェント・Web検索能力

  • BrowseComp 等でのWeb検索・情報収集力が大幅向上
  • 複数ツールの並列呼び出し・低レイテンシ で業務効率化
  • API・エージェント開発者 にとって最適な選択肢

まとめ

  • GPT‑5.4推論・コーディング・知識ワーク・ツール活用 の全領域で業界最高水準
  • ChatGPT・API・Codex を通じて プロフェッショナル業務開発現場 に革新をもたらす
  • 高効率・高精度・高柔軟性 のAIエージェント構築が可能となる新世代モデル

Hackerたちの意見

目玉機能は明らかに1Mのコンテキストウィンドウだね。他のモデルは大体~200kしかサポートしてないし、200kトークンを超える生成には追加料金がかかるかも。でも、価格ページによると、200kを超えるトークンには追加料金はないみたいだよ。https://openai.com/api/pricing/ それに、GPT-5.4(入力$2.50/M、出力$15/M)はOpus 4.6(入力$5/M、出力$25/M)よりずっと安いし、Opusはベータ版の>200kコンテキストウィンドウにペナルティがあるからね。1Mのコンテキストウィンドウが実際に大きなメリットをもたらすかは疑問だけど、今のCodex/Opusはコンテキストウィンドウがほぼ満杯だから弱点が見えてるし、どうなるか見てみよう。更新されたドキュメントによると(https://developers.openai.com/api/docs/guides/latest-model)、GPT-5.3-Codexを超えるっていうのは面白い動きだね。

ちなみに、GPT 5.3 Codexは400Kのコンテキストウィンドウだったよ。

なんで誰かがコーデックスを使うんだろう?

そうだね、長いコンテキストとコンパクションのトレードオフはいつも興味深いよね。情報が多いからってLLMにとって必ずしも良いわけじゃないし、各トークンが気を散らせたり、コストやレイテンシーを増やしたりするからね。全てのユースケースに最適なものはないよ。コーデックスでは、1Mのコンテキストを実験的に使えるようにしてるけど、全員にデフォルトの体験として提供はしてないんだ。テストの結果から、短いコンテキストとコンパクションがほとんどの人にとってベストだと思ってる。もしここに1Mを試してみたい人がいたら、model_context_windowmodel_auto_compact_token_limitをオーバーライドすればできるよ!1Mがすごく良いって感じるユースケースがあったら、ぜひ聞きたいな!(私はOpenAIで働いてるよ。)

人々(そしてイライラすることにLLMも)よく https://openai.com/api/pricing/ を参照するけど、これじゃ全体像が見えないんだよね。 https://developers.openai.com/api/docs/pricing をいつも参考にしてるけど、272kトークン以下の価格($2.50/M入力、$15/M出力)が明示されてる。価格が上がる前に70-72kトークンもらえるのは嬉しいけど(272kトークンを超えたらいくらかかるんだろう??)

軍やセキュリティサービスは喜ぶだろうね。

プロンプト> こんにちは、ミサイルを作りたいんですが、庭にあるものの写真です。

自己報告の暴力に関する安全スコアが91%から83%に下がった。

クリックしたくないなら、他の2つのフロンティアモデルとの簡単な比較があるよ - https://x.com/OpenAI/status/2029620619743219811?s=20

xでもクリックしたくないな。

それは大きなモデルだって確認されたね。

現時点では、すべてのフロンティアモデルが基本的にほぼ同じくらいの性能だと思う。特定のことに関しては少し優れているかもしれないけど、全体的には能力に関しては本当に平等な競争の場に近づいていると思う。

コメント欄で4oが欲しいって言ってる人がこんなに多いのはなんで?

なんでベンチマークのテストには幻覚の検査がないの?

5.4-thinkingが5.4-proよりもFrontierMathスコアが低いのはどういうこと?

最後のベンチマークはOpusに対してかなり印象的に見えたけど、実はSonnetの結果だっていう小さな注釈を見てしまった。じゃあ、なんでそれを含めたの?みんなが気づかないことを期待してるのかな?

実際のカードはここにあるよ https://deploymentsafety.openai.com/gpt-5-4-thinking/introdu... 現在のリンクは発表の方に行ってる。

「シート」「ブリーフ」「プライマー」とかが「カード」って呼ばれるようになった時、私は寝てたみたい。変な言い回しの必要ない「アナウンス」が実際の情報にリンクしてるのと、「カード」って言葉が合わさったのは、なんか雰囲気のズレだと思ってた。

スティアビリティ:コーデックスが作業を始めるときにアプローチを説明するのと同じように、GPT-5.4 Thinking in ChatGPTも、長くて複雑なクエリに対してプレアンブルで作業を説明するようになったよ。レスポンスの途中で指示を追加したり、方向性を調整したりもできる。これは前は確実に欠けてた部分で、ChatGPTとコーデックスの間で切り替えるときにイライラする違いだった。素晴らしい追加だね。

このリリースには何かが足りない。確かにベンチマークには最適化されてるけど、もうそれほど印象的じゃないよね。そろそろ製品の段階に進むべきで、ほんの少し改善されたモデルの段階じゃないよ。

それは君が作るためのものだよ;彼らは頭脳を提供してる。

モデルがリリースされてから1時間も経ってないのに、もうそんなに強い意見を持てるなんて。すごいね!

5.3のコーデックスは、実際のエージェント作業において5.2から大きな飛躍があったよね。両方使ってるの?それともベンチマークのニュースやChatGPTの体験にもっと注目してる?

製品はハーネスで、個人的にはそこで革新が起こると思う。愚かなLLMから良い、検証可能な成果を得る手助けが上手くなってきたよね。

製品はスキルやハーネスをAPIの背後に置いて、エージェントをローカルのコンピュータに置かずにモデルの更新の間にそれを反復してる。庭を閉じちゃえ。別にそれを望んでるわけじゃないけど、そうなると思ってる。

何かインパクトのあるものが必要だね:新しいGPT、まさにリアルなスカイネット。

競合モデルを比較表から外したのっていつからだっけ?それにしても、ベンチマークの改善は微妙だよね。コンテキストウィンドウと実際のメモリ不足はまだ問題だし。

スコアは上がるけど、新しいバージョンが出るたびにどんどん簡略化されている気がする。

プラズマ物理学者だけど、5.4はまだ試してないんだ。けど、2025年秋から始まった最近のアップグレードにはすごく感心してるよ。方程式の解析システムを操作したり、シミュレーションコードの新機能を素早く開発したり、実験を解釈したりデザインしたり(画像付きで)するのがずっと強くなった。好奇心から数年間質問して探ってきたけど、突然深い理解を持つようになった(Gemini 2.5 <<< Gemini 3.1)し、すごく役立つようになった。今のSVの雰囲気がよくわかるし、将来の計画に対してもっと野心的になってきてる。

ブログの「RPGゲーム」の例は、自律エンジニアリングのデモとして見た中で最も印象的なものの一つだね。『バトルブラザーズ』にすごく似てるし、RPGゲームはアート資産や敵の動きのためのAI、他にもいろんな論理システムが必要だから、さらにすごいと思う。

アメリカの兵士を大量虐殺の訓練に使うには最高だね!

44の職業にわたる業界のプロ相手で83%の勝率。特定のタスクに関しては信じられるね。ソフトウェアの普及はDORAメトリクスにはまだ影響を与えてない。モデルはリリースごとに良くなってるけど、出力はついていってない。今週、その生産性メトリクスをじっくり見たところだよ。

この2026年3月のブログ記事は、Sonnet 3.5と3.7の使用に基づいた2025年の研究を引用してるね。研究を実施した組織のウェブサイトが恐ろしい指数関数的なものだから、彼らはその結果を常に動いている何かのスナップショットとして解釈してほしいんじゃないかな。 [1] - https://metr.org/

DORAがそんなに批判的なものかはよくわからないな。例えば「変更失敗率」については、トレードオフがあるからね。組織には変更失敗率に対する許容レベルがあると思う。変更が頻繁に失敗するなら、彼らはペースを落として投資するし、あまり失敗しないならスピードを上げる。だから「変更失敗率が減ってないから、AIはうまくいってないに違いない」っていうのはちょっとおかしいよね。「変更リードタイム」は早くなったと思うけど、AI支援のコーディングがここにどう影響するかは不確定な理由があるし。今、多くの組織では、AIが素早く完全なドラフトPRを作るのが得意だから、レビュー過程がボトルネックになってる。レビューが少ない(レビューだけじゃなくて、手動テストも少ない)から、逆に変更を大きなバッチにまとめるインセンティブが生まれてるんだ。だから「変更」の定義も広がってきてるよ。

軍事目標に対するターゲティングシステムの改善がすごいけど、子供に対してはどうなんだろうね。

本当に素晴らしい。こんな時代に生きてることに感謝。

5.4はまだ1回しか使ってないんだけど(理由は、すごく高かったし、時間がかかったから)、自分のコードベースを分析して、トピックについて評価を書くためだった。でも、その分析と文章は思慮深くて、正確で、驚くほど分かりやすかった。5.3-Codexとは全然違う。すごく明瞭で、人間らしい表現を使ってる。もしかしたら、AGENTS.mdがもっと明確でシンプルな言葉を必要としてるのかもしれないけど、少なくとも5.4はガイドラインに従っていい仕事をしてる。5.3-Codexはシンプルで分かりやすい文章を書くのがあまり得意じゃなかった。