世界を動かす技術を、日本語で。

OpenAI o3-pro

概要

OpenAIは2025年に複数の新モデル・アップデートを発表。 o3-proは高信頼な回答でPro/Teamユーザー向けに提供開始。 Advanced Voiceは自然な発話・翻訳機能が強化され、全有料ユーザーに展開。 GPT-4.1/4.1 miniはコーディング・指示理解に特化し、幅広いユーザーが利用可能。 o4-miniやGPT-4oも性能・体験面で随時改善が進行中。

OpenAI o3-proのリリースと特徴(2025年6月10日)

  • o3-pro最も知的なo3モデル をベースにした高信頼バージョン
  • ChatGPTとAPIで Pro/Teamユーザー向け に提供開始、 o1-proの後継
  • 数学・科学・コーディング分野で 学術評価でも高評価
  • Web検索・ファイル解析・画像入力推論・Python利用・メモリ機能 など多彩なツール利用が可能
  • 応答速度はo1-proより遅い が、 難問や信頼性重視の用途 に最適
  • 科学・教育・プログラミング・ビジネス・執筆支援 で特に優秀
  • 明瞭さ・網羅性・指示遵守・正確性 で一貫して高い評価
  • 4/4信頼性評価 でもo1-pro/o3を上回る実績
  • Enterprise/Eduユーザー は翌週から利用可能
  • 一時的チャット・画像生成・Canvas は現時点で非対応

Advanced Voiceのアップデート(2025年6月7日)

  • ChatGPTの有料ユーザー向けAdvanced Voice を大幅強化
  • イントネーション・自然さ・感情表現 (共感・皮肉など)が向上
  • リアルタイム翻訳機能 が追加され、会話中ずっと翻訳継続が可能
    • 例:レストランや海外出張時の 双方向通訳
  • 全プラットフォームの有料ユーザー が利用可能、Voiceアイコンから起動
  • 音質低下や声のトーン変動 など軽微な既知の問題あり
  • 稀なハルシネーション (広告音・雑音等)も調査中

o4-miniのアップデート(2025年6月6日)

  • o4-miniの最新スナップショットを一時ロールバック
  • 自動監視でコンテンツフラグ増加 を検知したため対応

GPT-4.1シリーズのリリース(2025年5月14日)

  • GPT-4.1API人気モデル であり、 ChatGPT内でも利用可能
  • コーディング・指示理解・Web開発 に特化し、GPT-4oよりも精密な指示対応
  • Plus/Pro/Teamユーザー が「その他のモデル」から選択可能
  • Enterprise/Eduユーザー は数週間以内に利用可能
  • GPT-4.1 mini高速・高効率な小型モデル で、指示理解・コーディング・知能面で大幅向上
    • GPT-4o miniの後継 として有料ユーザーは選択可能
    • 無料ユーザーはGPT-4o上限到達時のフォールバックモデル
  • 安全性評価・パフォーマンス詳細 はSafety Evaluations Hubで公開

GPT-4oの継続的な改善

  • 画像生成ツールの呼び出し最適化 (2025年5月12日)
  • 過度な同意的応答(sycophancy)問題の修正対応 (2025年4月29日)
  • メモリ保存タイミング・STEM問題解決力・会話誘導性 の改善(2025年4月25日)
  • 直感的・効果的な対話体験 の実現を目指す

OpenAI o3/o4-miniの特徴(2025年4月16日)

  • o3高度な推論・分析・視覚認識 に強み
    • Codeforces・SWE-bench・MMMU などのベンチマークで新記録
    • プログラミング・ビジネス・創造的発想 でも高評価
  • o4-mini高速・コスト効率重視 の小型モデル
    • AIME 2024/2025で最高性能
    • 高利用量・高スループット用途 に最適

GPT-4oの機能改善(2025年3月27日)

  • STEM・コーディング問題解決力の向上
    • クリーンなフロントエンドコード生成・既存コードの改良提案
  • 指示遵守・フォーマット精度の向上
  • 意図理解力・簡潔さ・明瞭さ の強化
  • 最新スナップショットはChatGPT/APIで利用可能

GPT-4.5の研究プレビュー(2025年2月27日)

  • GPT-4.5最大規模・最高性能のチャットモデル
  • パターン認識・関連付け・創造的洞察 の能力向上
  • ユーザー意図の理解・EQの高さ で自然な対話体験
  • 幻覚(hallucination)発生率の低減 を期待
  • 研究プレビューとして公開し、フィードバックを募集中

OpenAI o3-miniのリリース(2025年1月31日)

  • o3-miniコスト効率・推論力重視の新モデル
  • 構造化出力・関数呼び出し・開発者メッセージ・ストリーミング 対応
  • 推論深度を3段階で調整可能
  • ChatGPT全プランで利用開始、検索機能も試験提供
  • STEM領域でo1-miniを上回る性能

GPT-4oのアップデート(2025年1月29日)

  • 知識カットオフを2024年6月に延長
  • 最新のトレンド・研究にも対応可能
  • 画像アップロード解析の理解・分析力も強化

Hackerたちの意見

ベンチマークはo3よりもそんなに良く見えないね。これって、Proモデルがベースモデルよりちょっとだけ良いってことなのか、それともパフォーマンスの向上が頭打ちになってきてるシグモイド関数の高いところに近づいてるのかな?

o3と同じモデルだけど、思考トークンが最大に設定されてるだけだよ。

今の時点で、社内にフルバージョンのo4がどこかにあるんじゃないの?

リリース以来、o3をかなり使ってるし(Deep Researchもたくさん)、ClaudeとGemini 2.5 Proもよく使ってる(コードの時はみんなにやらせて、お気に入りの結果を反復させることが多い)。今日はo3-proを少し使っただけだけど、インタラクティブに使うにはちょっと重すぎる(起動して10-15分後に再訪する感じ)。でも、かなりクリーンで整理されたコードや回答を生成するみたい。今のところ、ベンチマークが能力をうまく反映してない気がする。例えば、Claude 4 SonnetはOpus 4と同じくらいのスコアだけど、私の使い方ではOpusの方が常に問題解決や必要なコードを書くのにかなり優れてる。特に複雑な問題を除けば、いろんなモデルが十分に良くて、信頼性が重要になってくる。例えば、Claudeは仕事で使うのをやめたんだけど、何度もプロンプトを完全に食べちゃったり、生成したアーティファクトを消しちゃったから。しかも、制限に達するのが異常に早い(ネットワークやリソースの障害があってもそうなる)。コードインタープリターの仕事には4.1をメインで使ってる(グラフやチャートをmatplotlibで作成したり、基本的なデータフレームの処理、テーブルをMarkdownに変換したり)けど、他のモデルより統合が良くて、4.1では数字の転置やエラーを見たことがない(4oやSonnetでは見たことがある)。先進的なオープンモデルやクローズドモデルをかなり試したけど、4.5が今のところ一番話しやすくて判断しやすいモデルだと思ってる(特に翻訳の時)。これもベンチマークには反映されてないけど、4.5はOpus 3と初めて話した時の感覚をくれる唯一のモデルなんだ(実際の流動的な知性や、過度におべっかを使わない心地よい性格を持ってる)。Opus 4はその点で私には大きな後退だね。(Codex、Roo Code、Windsurf、他のAPIベースのツールも使ってるけど、正直言って、OpenAIのChatGPT UIが私のワークフローでモデルを活用するには一般的に良いと思ってる。)

現在のアーキテクチャでは、幻覚は根本的に解決不可能な問題なんじゃないかって感じてきた。何かが変わるまで、ベンチマークを圧迫し続けると思う。今のところ、仕事のために賢い一般モデルは必要ない。幻覚を起こさないモデル、もっと速くて安いモデル、特定の分野でセンスのいいモデルが必要なんだ。これが今後の改善点だと思う。

じゃあ、Teamsにアップグレードして50ドル払うってこと?それにo3の使用も増えるし。100ドルのClaude Maxを狙ってる感じ?

「50ドル払う」ってどういう意味?それと、o3-proのチームプランの制限って誰か知ってる?モデルピッカーには全然表示されてないんだけど(チーム用で)。

ここにいいユーザーレビューがあるよ: https://www.latent.space/p/o3-pro samaのハイライト[0]: > 「o3がくれたプランは妥当で現実的だったけど、o3 Proがくれたプランは具体的で、私たちの未来に対する考え方を実際に変えてくれた。」チームにo3をCEOにしろってずっと言ってたけど、まだ乗ってこないね、笑 0: https://x.com/sama/status/1932533208366608568

swyxの大ファンだけど、ここでも記事でもsamaに引用されたことを自慢してるのが気になる。普通じゃないとは言わないけど、これがどこに繋がるのか心配だよ。sama(や似たような興味を持つ人)に引用されるには、彼の製品について良いことを言って、フォロワー数がそこそこ必要ってことだからね。危険なインセンティブだと思う。

o3がそんなに良いなら、なんで経営を代替するのに使わないの?

現在、o4-miniとo4-mini-highがあって、これは「思考」や推論トークンの中程度と高い使用を表してるんだ。この発表でo3-proが追加されて、o4モデル同士が組み合わさるのと同じようにo3とペアになる。o3-highって呼ぶべきだけど、200ドルのプロメンバーシップに合わせるためにproって呼ばれてるんだ。とはいえ、o3はすでに信じられないほど強力なモデルだよ。新しいAnthropic 4モデルやGemini 2.5よりもこっちの方が好き。生のパワーは他のモデルと似てるけど、インラインツールの使い方がすごく上手だから、全体的に見ていつも勝ってる。非トリビアルなコード生成や編集には、進んだ推論モデルを使うべきだよ。そうしないと、もっとバグを直したり、質の高い解決策を逃したりする時間を無駄にしちゃうからね。もちろん、コストが問題だけど、フロンティアには価値があるよ。

いや、これは正しくないと思うけど、モデル名について混乱するのは理解できる。o4-mini-highはchatgpt.comでのラベルで、APIではo4-miniと呼ばれていて、reasoning={"effort": "high"}になってる。一方、chatgpt.comのo4-miniはAPIではreasoning={"effort": "medium"}と同じものだよ。o3もAPIでreasoning={"effort": "high"}で動かせる。o3-proは高い推論を持つo3とは違うし、別のエンドポイントがあって、ずっと長く動くんだ。詳しくはここを見てね:https://platform.openai.com/docs/guides/reasoning?api-mode=r...

別のスレッドで言ってた人たちが、OpenAIがo3を量子化して価格を下げたかもしれないって言ってたけど、もしかしたらそれが正しいかも。このo3-proは最初からの実際のo3プレビューで、o3はただの量子化されたバージョンかもしれない。誰かがこれらのモデルをベンチマークして、品質の低下をチェックしてくれたらいいのに。

ここでは全然そうじゃないよ。新しいo3-proは遅くて、ペリカンが自転車に乗ってるSVGを描くのに2分もかかった。o3-previewの方がずっと速かったよ。https://simonwillison.net/2025/Jun/10/o3-pro/

o3-proは2024年12月に見せられたo3-previewとは同じじゃない。OpenAIがこれを確認してくれたよ。詳しくはここにあるよ:https://x.com/arcprize/status/1932535380865347585

出力から量子化の可能性を知る方法はあるかな?量子化は他のモデルの特性(例えばサイズや蒸留)を変更するのとは違った方法で出力の質を劣化させるのかな?

GPT5が、Claude3.5からClaude4、o3-mini-highからo3-proまでの最近のリリースよりも、メトリクスの大きな飛躍を見せてくれることを本当に期待してる。とはいえ、約1年間エージェントを作ってきたけど、ベンチマークはほんの少しの改善しか示してないのに、各新世代が前の世代と同じタスクをやるときに、実際に良くなってると感じてるんだ。タスク指向のデータで特別に訓練されたモデルがあったら面白いな。彼らは利用可能なすべてのデータで訓練されてるって理解してるけど、一般的なタスクを特定の実装に分解するために微調整したり、強化学習を与えたりできるのかな。要するに、エージェント特化型のモデルってことだね。

ベンチマークには出てない大きな進展を感じてる。今は前は作れなかったソフトウェアを簡単に作れるようになった。管理できる複雑さのレベルが上がったんだ。

それにはAIME 2024が100%を超える必要がある。これらのベンチマークには常に収穫逓減があるからね。これは構造上のものなんだ。そうならないのは数学的に不可能だよ。でも、モデルが遅いペースで良くなっているってわけじゃない。ベンチマークの空間は私たちが気にしていることの代理に過ぎないから、実際の目的地と混同しないでね。もし望むなら、ARC-AGI-2やEpochのような別のベンチマークを見て、線形以上の改善を観察することもできるし、これらの簡単なベンチマークが存在することを忘れてもいいよ。

100%確信するのは難しいけど、ベンチマークが横ばいになっている現状は、私たちが本当にかなり愚かで、この技術を使うことや評価することがあまり得意じゃないってことを示してると思う(まだ?)。

90%から99%に上がるのは精度が10倍になるって言うけど、99%から99.999%に上がるのは1000倍になるんだよね。最初の10%の増加は大きいけど、その後は0.999%の増加だけなんだよね。

「自転車に乗ったペリカンのSVGを作成して」 https://www.svgviewer.dev/s/c3j6TEAP 誰か興味があればね。

これって、今まで見たものより良く見えないって言ってもいいのかな?

https://www.latent.space/p/o3-pro これまでにo3-proで約10回のチャットを完了したけど、あまり感心してないな。出力は通常のo3と質的にとても似てる感じ。記事で提案されてたようにたくさんのコンテキストを入れてみたけど、全体的にはイマイチな感じ。

まだProアカウントにアップグレードする気はないな。GeminiとChatGPTに月20ドル払ってるけど、今のところこれで十分。1978年頃にBertram Raphaelの「Mind Inside Matter」を読んでから、強力なAIを持つことを夢見てきたし、それ以来AI研究や実生活での応用にハマってる。Proアカウントに200ドルは簡単に出せるけど、LLMがずっと夢見てきた強力なAIへの最終的な道じゃない気がして、このレベルの誇大広告を支援したくないんだ。何度かAIの冬を経験してきたから、会計士がコスト(環境やお金)と利益を計算して、みんなで「やばい」って思う瞬間が来るんじゃないかと心配してる。

LLMは、もし今日すべての進展が止まったとしても、そのNLP能力だけでも革新的な技術になるけど、最近のモデルはそれ以上のことをやってるのは明らかだよ。そういう意味では冬は来ない。もしモデルがこれ以上賢くならなかったら、トークン価格の底値を目指すレースになるかもしれないけど、それでもトークン購入者には悪くないと思う。

GPTの画像生成、もっと良くならないとダメだよ!今日、2025年のカレンダーを作ってもらうように頼んだんだけど、平日の労働日を強調して、連邦の祝日を除外するっていう条件でね。凡例の下に、条件に基づいてどれくらいの平日労働時間があるかも教えてほしいって言ったのに、作った画像は各月が表示されてたけど、見てみたらめちゃくちゃだった… 2月31日とか、他にも大きな間違いが!3Dアートを楽しむために画像生成を使ってるわけじゃなくて、友達や同僚と議論するための実用的な画像を作りたかったのに。これが、実用的な画像を作るときの失敗の一例だよ!

その仕事には間違ったツールだね。そういう機能を持ったSVGカレンダーを生成するように頼んでみるか、そういう機能を持ったSVGカレンダーを作るPythonコードを生成するように頼んでみて。