OpenAI o3-pro

2025年6月11日原文(help.openai.com)

概要

OpenAIは2025年に複数の新モデル・アップデートを発表。 o3-proは高信頼な回答でPro/Teamユーザー向けに提供開始。 Advanced Voiceは自然な発話・翻訳機能が強化され、全有料ユーザーに展開。 GPT-4.1/4.1 miniはコーディング・指示理解に特化し、幅広いユーザーが利用可能。 o4-miniやGPT-4oも性能・体験面で随時改善が進行中。

OpenAI o3-proのリリースと特徴（2025年6月10日）

o3-pro は 最も知的なo3モデル をベースにした高信頼バージョン
ChatGPTとAPIで Pro/Teamユーザー向け に提供開始、 o1-proの後継
数学・科学・コーディング分野で 学術評価でも高評価
Web検索・ファイル解析・画像入力推論・Python利用・メモリ機能 など多彩なツール利用が可能
応答速度はo1-proより遅い が、 難問や信頼性重視の用途 に最適
科学・教育・プログラミング・ビジネス・執筆支援 で特に優秀
明瞭さ・網羅性・指示遵守・正確性 で一貫して高い評価
4/4信頼性評価 でもo1-pro/o3を上回る実績
Enterprise/Eduユーザー は翌週から利用可能
一時的チャット・画像生成・Canvas は現時点で非対応

Advanced Voiceのアップデート（2025年6月7日）

ChatGPTの有料ユーザー向け に Advanced Voice を大幅強化
イントネーション・自然さ・感情表現 （共感・皮肉など）が向上
リアルタイム翻訳機能 が追加され、会話中ずっと翻訳継続が可能
- 例：レストランや海外出張時の 双方向通訳
全プラットフォームの有料ユーザー が利用可能、Voiceアイコンから起動
音質低下や声のトーン変動 など軽微な既知の問題あり
稀なハルシネーション （広告音・雑音等）も調査中

o4-miniのアップデート（2025年6月6日）

o4-miniの最新スナップショットを一時ロールバック
自動監視でコンテンツフラグ増加 を検知したため対応

GPT-4.1シリーズのリリース（2025年5月14日）

GPT-4.1 は API人気モデル であり、 ChatGPT内でも利用可能 に
コーディング・指示理解・Web開発 に特化し、GPT-4oよりも精密な指示対応
Plus/Pro/Teamユーザー が「その他のモデル」から選択可能
Enterprise/Eduユーザー は数週間以内に利用可能
GPT-4.1 mini は 高速・高効率な小型モデル で、指示理解・コーディング・知能面で大幅向上
- GPT-4o miniの後継 として有料ユーザーは選択可能
- 無料ユーザーはGPT-4o上限到達時のフォールバックモデル
安全性評価・パフォーマンス詳細 はSafety Evaluations Hubで公開

GPT-4oの継続的な改善

画像生成ツールの呼び出し最適化 （2025年5月12日）
過度な同意的応答（sycophancy）問題の修正対応 （2025年4月29日）
メモリ保存タイミング・STEM問題解決力・会話誘導性 の改善（2025年4月25日）
直感的・効果的な対話体験 の実現を目指す

OpenAI o3/o4-miniの特徴（2025年4月16日）

o3 は 高度な推論・分析・視覚認識 に強み
- Codeforces・SWE-bench・MMMU などのベンチマークで新記録
- プログラミング・ビジネス・創造的発想 でも高評価
o4-mini は 高速・コスト効率重視 の小型モデル
- AIME 2024/2025で最高性能
- 高利用量・高スループット用途 に最適

GPT-4oの機能改善（2025年3月27日）

STEM・コーディング問題解決力の向上
- クリーンなフロントエンドコード生成・既存コードの改良提案
指示遵守・フォーマット精度の向上
意図理解力・簡潔さ・明瞭さ の強化
最新スナップショットはChatGPT/APIで利用可能

GPT-4.5の研究プレビュー（2025年2月27日）

GPT-4.5 は 最大規模・最高性能のチャットモデル
パターン認識・関連付け・創造的洞察 の能力向上
ユーザー意図の理解・EQの高さ で自然な対話体験
幻覚（hallucination）発生率の低減 を期待
研究プレビューとして公開し、フィードバックを募集中

OpenAI o3-miniのリリース（2025年1月31日）

o3-mini は コスト効率・推論力重視の新モデル
構造化出力・関数呼び出し・開発者メッセージ・ストリーミング 対応
推論深度を3段階で調整可能
ChatGPT全プランで利用開始、検索機能も試験提供
STEM領域でo1-miniを上回る性能

GPT-4oのアップデート（2025年1月29日）

知識カットオフを2024年6月に延長
最新のトレンド・研究にも対応可能
画像アップロード解析の理解・分析力も強化

Hackerたちの意見

ベンチマークはo3よりもそんなに良く見えないね。これって、Proモデルがベースモデルよりちょっとだけ良いってことなのか、それともパフォーマンスの向上が頭打ちになってきてるシグモイド関数の高いところに近づいてるのかな？

└

o3と同じモデルだけど、思考トークンが最大に設定されてるだけだよ。

└

今の時点で、社内にフルバージョンのo4がどこかにあるんじゃないの？

└

リリース以来、o3をかなり使ってるし（Deep Researchもたくさん）、ClaudeとGemini 2.5 Proもよく使ってる（コードの時はみんなにやらせて、お気に入りの結果を反復させることが多い）。今日はo3-proを少し使っただけだけど、インタラクティブに使うにはちょっと重すぎる（起動して10-15分後に再訪する感じ）。でも、かなりクリーンで整理されたコードや回答を生成するみたい。今のところ、ベンチマークが能力をうまく反映してない気がする。例えば、Claude 4 SonnetはOpus 4と同じくらいのスコアだけど、私の使い方ではOpusの方が常に問題解決や必要なコードを書くのにかなり優れてる。特に複雑な問題を除けば、いろんなモデルが十分に良くて、信頼性が重要になってくる。例えば、Claudeは仕事で使うのをやめたんだけど、何度もプロンプトを完全に食べちゃったり、生成したアーティファクトを消しちゃったから。しかも、制限に達するのが異常に早い（ネットワークやリソースの障害があってもそうなる）。コードインタープリターの仕事には4.1をメインで使ってる（グラフやチャートをmatplotlibで作成したり、基本的なデータフレームの処理、テーブルをMarkdownに変換したり）けど、他のモデルより統合が良くて、4.1では数字の転置やエラーを見たことがない（4oやSonnetでは見たことがある）。先進的なオープンモデルやクローズドモデルをかなり試したけど、4.5が今のところ一番話しやすくて判断しやすいモデルだと思ってる（特に翻訳の時）。これもベンチマークには反映されてないけど、4.5はOpus 3と初めて話した時の感覚をくれる唯一のモデルなんだ（実際の流動的な知性や、過度におべっかを使わない心地よい性格を持ってる）。Opus 4はその点で私には大きな後退だね。（Codex、Roo Code、Windsurf、他のAPIベースのツールも使ってるけど、正直言って、OpenAIのChatGPT UIが私のワークフローでモデルを活用するには一般的に良いと思ってる。）

└

現在のアーキテクチャでは、幻覚は根本的に解決不可能な問題なんじゃないかって感じてきた。何かが変わるまで、ベンチマークを圧迫し続けると思う。今のところ、仕事のために賢い一般モデルは必要ない。幻覚を起こさないモデル、もっと速くて安いモデル、特定の分野でセンスのいいモデルが必要なんだ。これが今後の改善点だと思う。

じゃあ、Teamsにアップグレードして50ドル払うってこと？それにo3の使用も増えるし。100ドルのClaude Maxを狙ってる感じ？

└

「50ドル払う」ってどういう意味？それと、o3-proのチームプランの制限って誰か知ってる？モデルピッカーには全然表示されてないんだけど（チーム用で）。

ここにいいユーザーレビューがあるよ： https://www.latent.space/p/o3-pro samaのハイライト[0]: > 「o3がくれたプランは妥当で現実的だったけど、o3 Proがくれたプランは具体的で、私たちの未来に対する考え方を実際に変えてくれた。」チームにo3をCEOにしろってずっと言ってたけど、まだ乗ってこないね、笑 0: https://x.com/sama/status/1932533208366608568

└

swyxの大ファンだけど、ここでも記事でもsamaに引用されたことを自慢してるのが気になる。普通じゃないとは言わないけど、これがどこに繋がるのか心配だよ。sama（や似たような興味を持つ人）に引用されるには、彼の製品について良いことを言って、フォロワー数がそこそこ必要ってことだからね。危険なインセンティブだと思う。

└

o3がそんなに良いなら、なんで経営を代替するのに使わないの？

現在、o4-miniとo4-mini-highがあって、これは「思考」や推論トークンの中程度と高い使用を表してるんだ。この発表でo3-proが追加されて、o4モデル同士が組み合わさるのと同じようにo3とペアになる。o3-highって呼ぶべきだけど、200ドルのプロメンバーシップに合わせるためにproって呼ばれてるんだ。とはいえ、o3はすでに信じられないほど強力なモデルだよ。新しいAnthropic 4モデルやGemini 2.5よりもこっちの方が好き。生のパワーは他のモデルと似てるけど、インラインツールの使い方がすごく上手だから、全体的に見ていつも勝ってる。非トリビアルなコード生成や編集には、進んだ推論モデルを使うべきだよ。そうしないと、もっとバグを直したり、質の高い解決策を逃したりする時間を無駄にしちゃうからね。もちろん、コストが問題だけど、フロンティアには価値があるよ。

└

いや、これは正しくないと思うけど、モデル名について混乱するのは理解できる。o4-mini-highはchatgpt.comでのラベルで、APIではo4-miniと呼ばれていて、reasoning={"effort": "high"}になってる。一方、chatgpt.comのo4-miniはAPIではreasoning={"effort": "medium"}と同じものだよ。o3もAPIでreasoning={"effort": "high"}で動かせる。o3-proは高い推論を持つo3とは違うし、別のエンドポイントがあって、ずっと長く動くんだ。詳しくはここを見てね：https://platform.openai.com/docs/guides/reasoning?api-mode=r...

Hacker Newsで議論の続きを見る

ハクソク