ハクソク

世界を動かす技術を、日本語で。

GPT-5.4

2026年3月6日原文(openai.com)

概要

GPT‑5.4 はChatGPT、API、Codexで利用可能な最新・最強のフロンティアモデル
推論・コーディング・エージェントワークフロー の大幅な進化
プロフェッショナル業務 に特化した高精度・高効率なパフォーマンス
ツール・ソフトウェア連携 や長文コンテキスト処理が強化
事実性・エラー削減・画像理解 も大幅に向上

GPT‑5.4リリース概要

ChatGPT（GPT‑5.4 Thinking）・API・Codex 向けにリリース
GPT‑5.4 Pro は複雑なタスク向けの最大性能モデル
推論・コーディング・エージェント機能 を一体化したフロンティアモデル
GPT‑5.3‑Codex の業界最高レベルのコーディング能力を継承・強化
ツール・ソフトウェア環境・プロフェッショナル業務 での動作性向上

ChatGPTでの進化

思考プロセスの事前提示 機能を新搭載
- 途中でユーザーが指示を調整可能
深層Webリサーチ・長文コンテキスト維持 が大幅に改善
回答品質・速度・関連性 の向上

Codex・APIでの新機能

業界初の汎用モデル として ネイティブなコンピュータ操作能力 を搭載
最大1Mトークン のコンテキスト対応
ツール検索機能 により大規模ツール連携が効率化
トークン効率最適化 により従来比で高速化・コスト削減

ベンチマーク・実績

GDPval （44職種の知識ワーク評価）で 83.0% の業界最高記録
SWE-Bench Pro や OSWorld-Verified 等各種ベンチマークで従来モデルを大幅上回る
スプレッドシート・プレゼン・ドキュメント作成 の精度と美観が向上
事実性・エラー低減 ：個別主張の誤り33%減、全体回答の誤り18%減（GPT‑5.2比）

コンピュータ操作・開発者向け機能

Playwright等のライブラリ を駆使したコード生成・操作
スクリーンショット解析・マウス/キーボード操作 の自動化
開発者向けメッセージ で行動や安全性の調整が可能
ツール呼び出しの効率化 で大規模エコシステムにも対応

画像・ドキュメント理解の進化

高解像度画像 （最大10.24Mピクセル）の完全忠実入力に対応
MMMU-Pro/OmniDocBench 等で視覚理解・文書解析能力が向上
ローカライズ精度・クリック精度 も大幅改善

コーディング・ツール連携の効率化

/fastモード や priority processing で最大1.5倍のトークン速度
Playwright (Interactive) スキルでWeb/Electronアプリの視覚デバッグが可能
ツール検索機能 でトークン消費を最大47%削減、レスポンス高速化
Toolathlon等での多段階ワークフロー を効率的に処理

エージェント・Web検索能力

BrowseComp 等でのWeb検索・情報収集力が大幅向上
複数ツールの並列呼び出し・低レイテンシ で業務効率化
API・エージェント開発者 にとって最適な選択肢

まとめ

GPT‑5.4 は 推論・コーディング・知識ワーク・ツール活用 の全領域で業界最高水準
ChatGPT・API・Codex を通じて プロフェッショナル業務 や 開発現場 に革新をもたらす
高効率・高精度・高柔軟性 のAIエージェント構築が可能となる新世代モデル

Hackerたちの意見

目玉機能は明らかに1Mのコンテキストウィンドウだね。他のモデルは大体~200kしかサポートしてないし、200kトークンを超える生成には追加料金がかかるかも。でも、価格ページによると、200kを超えるトークンには追加料金はないみたいだよ。https://openai.com/api/pricing/ それに、GPT-5.4（入力$2.50/M、出力$15/M）はOpus 4.6（入力$5/M、出力$25/M）よりずっと安いし、Opusはベータ版の>200kコンテキストウィンドウにペナルティがあるからね。1Mのコンテキストウィンドウが実際に大きなメリットをもたらすかは疑問だけど、今のCodex/Opusはコンテキストウィンドウがほぼ満杯だから弱点が見えてるし、どうなるか見てみよう。更新されたドキュメントによると（https://developers.openai.com/api/docs/guides/latest-model）、GPT-5.3-Codexを超えるっていうのは面白い動きだね。

└

ちなみに、GPT 5.3 Codexは400Kのコンテキストウィンドウだったよ。

└

なんで誰かがコーデックスを使うんだろう？

└

そうだね、長いコンテキストとコンパクションのトレードオフはいつも興味深いよね。情報が多いからってLLMにとって必ずしも良いわけじゃないし、各トークンが気を散らせたり、コストやレイテンシーを増やしたりするからね。全てのユースケースに最適なものはないよ。コーデックスでは、1Mのコンテキストを実験的に使えるようにしてるけど、全員にデフォルトの体験として提供はしてないんだ。テストの結果から、短いコンテキストとコンパクションがほとんどの人にとってベストだと思ってる。もしここに1Mを試してみたい人がいたら、model_context_windowとmodel_auto_compact_token_limitをオーバーライドすればできるよ！1Mがすごく良いって感じるユースケースがあったら、ぜひ聞きたいな！(私はOpenAIで働いてるよ。)

└

人々（そしてイライラすることにLLMも）よく https://openai.com/api/pricing/ を参照するけど、これじゃ全体像が見えないんだよね。 https://developers.openai.com/api/docs/pricing をいつも参考にしてるけど、272kトークン以下の価格（$2.50/M入力、$15/M出力）が明示されてる。価格が上がる前に70-72kトークンもらえるのは嬉しいけど（272kトークンを超えたらいくらかかるんだろう？？）

軍やセキュリティサービスは喜ぶだろうね。

└

プロンプト> こんにちは、ミサイルを作りたいんですが、庭にあるものの写真です。

└

自己報告の暴力に関する安全スコアが91%から83%に下がった。

クリックしたくないなら、他の2つのフロンティアモデルとの簡単な比較があるよ - https://x.com/OpenAI/status/2029620619743219811?s=20

└

xでもクリックしたくないな。

└

それは大きなモデルだって確認されたね。

└

現時点では、すべてのフロンティアモデルが基本的にほぼ同じくらいの性能だと思う。特定のことに関しては少し優れているかもしれないけど、全体的には能力に関しては本当に平等な競争の場に近づいていると思う。

Hacker Newsで議論の続きを見る