世界を動かす技術を、日本語で。

GPT-5.5

2026年4月24日原文(openai.com)

概要

  • GPT-5.5 は、これまでで最も賢く直感的なAIモデルとして登場
  • コーディング、データ分析、ドキュメント作成など多様な業務を効率化
  • 処理速度・効率性 を維持しつつ、従来モデルより高い知能を実現
  • 強化された安全対策と幅広いベンチマークでの高評価
  • ChatGPTやCodexで Plus/Pro/Business/Enterprise ユーザー向けに順次展開

GPT-5.5の特徴と進化

  • GPT-5.5 は、ユーザーの意図を素早く把握し、自律的に多くの作業を遂行できるAIモデル
  • コーディングの記述・デバッグ、オンラインリサーチ、データ分析、ドキュメントやスプレッドシート作成、ソフトウェア操作など幅広い業務対応力
  • 複雑で多段階なタスクも、 計画立案・ツール活用・自己チェック・曖昧さの解消 を自動で実行
  • 特に エージェント型コーディング、PC操作、知識労働、科学研究初期段階で大幅な性能向上
  • GPT-5.4と同等の 低レイテンシ で、より高い知能と効率性を両立
  • 同じCodexタスクを 少ないトークン数 で完了し、コストパフォーマンスも向上

安全性とリリース体制

  • 最強レベルのセーフガード を導入し、悪用リスクを低減しつつ有益な利用を確保
  • 内部・外部のレッドチームや200名以上の早期アクセスパートナーから実運用フィードバックを収集
  • ChatGPTおよびCodexの Plus/Pro/Business/Enterprise ユーザーに段階的に提供開始
  • API展開には追加のセーフガードが必要なため、パートナー・顧客と連携して安全基準を策定中

ベンチマーク・性能評価

  • Terminal-Bench 2.0 で82.7%の最先端精度、計画・反復・ツール連携を要するコマンドライン作業で高評価
  • SWE-Bench Pro で58.6%、GitHubの実課題解決で一発完了率向上
  • Expert-SWE (社内評価)でもGPT-5.4を上回るパフォーマンス
  • いずれも トークン消費量削減 とスコア向上を両立
  • Codex上では、実装・リファクタ・デバッグ・テスト・バリデーションといったエンジニアリング作業の能力が際立つ

ユーザー・企業の声と実例

  • Every社 CEO Dan Shipper :「初めて本当に概念的な明快さを持つコーディングモデル」
  • MagicPath社 CEO Pietro Schirano :大規模なフロントエンド変更のマージも一発で解決
  • NVIDIAのエンジニア :「GPT-5.5を失うのは手足を失ったような感覚」
  • Cursor社 CEO Michael Truell :「タスク継続性と自律性が大幅向上」
  • OpenAI社内でも 85%以上の社員が毎週Codexを活用、業務効率化を実現

知識労働・科学研究への応用

  • ドキュメント生成、スプレッドシート作成、スライド資料作成など、 知識労働全般 でGPT-5.4を上回る性能
  • GDPval で84.9%、 OSWorld-Verified で78.7%、 Tau2-bench Telecom で98.0%の最先端スコア
  • FinanceAgent や投資銀行モデル業務、OfficeQA Pro等でも高い評価
  • GeneBenchBixBench など科学データ解析分野でも大幅な進歩
  • 内部バージョンは 組合せ数学の新証明 発見にも貢献

今後の展開とビジョン

  • OpenAIは エージェント型AIのグローバルインフラ 構築を推進
  • API展開やさらなる安全対策を進め、より多くの人と企業がAIで業務改革を実現可能に
  • GPT-5.5 は単なる高速・高精度コーディングAIに留まらず、 新しいPC作業体験 を提供する次世代AIとして進化

この内容は、GPT-5.5のリリース概要・技術的進化・ユーザー評価・実運用事例・今後の展望を簡潔かつ体系的にまとめたものです。

Hackerたちの意見

モデルリリースのビンゴカードがあるなら、「今までで一番[形容詞]で[形容詞]なモデル」って絶対フリースペースだよね。

「私たちの最新で最も高価なモデルです」

「私たちの[最上級]で[最上級]な[製品]です」って言えば、ほぼすべての製品発表ができちゃうよね。

発表の中で「ベンチマークで良くなった」よりも面白い部分はこれだね: > GPUをより良く活用するために、Codexは数週間分の生産トラフィックパターンを分析して、最適に作業を分割・バランスを取るためのカスタムヒューリスティックアルゴリズムを作成したんだ。この取り組みは大きな影響を与えて、トークン生成速度が20%以上向上したよ。エージェント的なLLMが計算効率や速度を改善できる能力は、ベンチマーク以上にテストされるべき重要な領域だと思う。私の経験では、Opusはこの点でまだGPT/Codexよりずっと優れているけど、OpenAIがこのパフォーマンス最大化から実質的な利益を得ていることを考えると、コストやキャパシティの問題もあって、今後も最適化を続けるのか気になるな。

正直、これの問題はどれだけ経験的かってことだよね。誰かがこれを再現できるの?私は、LabsがMMLUやその仲間たちのような伝統的なベンチマークを超えるのが好きだけど、こういう声明はあまり役に立たないよね - ちゃんとしたコントロールスタディじゃない限り!

すでにCUDAカーネルの最適化をテストするKernelBenchがあるよ。一方で、全ての企業は自社のインフラやモデルの最適化が競争に勝つための重要な道だって知ってるから、真剣に取り組んでると思うよ。

Opus 4.7が先に出るのを待ってたのがいいね。そうすればGPT 5.5が得意なベンチマークを見つけるための数日間があったから。

まあ、体験的に言うと、5.4はすでにオーパス4.7よりも良かったから、そんなに難しくなかったはず。

Anthropicが4.7を急いで出したのは、5.5が出る前に数日間のカバレッジを得るためだと思う。

CodexとGPTモデルを使って作ったプレイ可能な3Dダンジョンアリーナのプロトタイプ。Codexがゲームアーキテクチャ、TypeScript/Three.jsの実装、戦闘システム、敵との遭遇、HUDフィードバック、そしてGPT生成の環境テクスチャを担当したんだ。キャラクターモデル、キャラクターテクスチャ、アニメーションはサードパーティのアセット生成ツールで作成された。このプロンプトから生成されたゲームは、見た目がかなり良さそうだね。これはメッシュが別のツール(たぶんメッシーやtripo.aiみたいな)で作成されていて、5.5自体で生成されたわけじゃないからだと思う。まるでフラッシュの時代の幕開けのようで、どんなゲーマーやホビイストでもゲームのコンセプトをすぐに生成してウェブに公開できる時代が来るかもしれないね。特にThree.jsは、AIを使ったゲームデザインの主要な方法として急成長しているけど、ゲームエンジンじゃなくてただのウェブレンダリングライブラリなんだよね。

個人的には、ゲームプレイ自体はそんなに印象的じゃないと思う。

参考までに、私はここ3年ほどThree.jsとAIを試してきたけど、5.4ではかなりの改善が見られたよ。特にThree.jsに関しては、最大の進化だと思う。シェーダー(GLSL)で最も顕著だったけど、複数のページやコンポーネントにわたるThree.jsのシーンの構造にも現れていた。ゼロからシェーダーを作るのはまだ苦労してるけど、既存のシェーダーを編集するのはかなりできるようになった。5.2以前では、GPTは「一つのキャンバスで複数ページ」な体験に本当に苦労してたけど、5.4では少し手助けが必要で、頻繁にリファクタリングや最適化のプロンプトが必要だけど、ずっと能力が上がったよ。5.5を試してみるのが楽しみだな。

Hacker Newsで議論の続きを見る