o3 proについての初めての考察

2025年6月11日原文(latent.space)

概要

OpenAIが o3モデルの価格を大幅に値下げ し、同時に o3-proを発表。 o3-proは従来モデルより具体的な計画立案やツール活用に優れる。モデルの性能評価が難化し、 実社会統合が今後の課題。 適切な文脈提供とプロンプト設計が重要。 AI製品の品質向上には “ハーネス”設計が鍵。

OpenAI o3モデル価格改定とo3-pro登場

OpenAIが o3モデルの価格を80%値下げ （$10/$40→$2/$8、GPT-4.1と同等価格）
o3-proの新価格 は$20/$80（未検証のコミュニティ説：-proはベースモデルの10倍呼び出し＋多数決）
o3-proは o3に対して64%の勝率 （人間テスター評価）、信頼性ベンチマークも4/4で僅差の勝利
o3-proはより多くの文脈を必要、単純な質問では性能差が現れにくい
o3-proは 具体的・実用的な計画立案能力 が大幅向上

o3-pro実体験と評価ポイント

o3-proの真価は「レポート生成型」利用 で発揮
- 文脈・目標・大量の背景情報を与えて初めて本領発揮
- Raindropの過去会議・目標・音声メモを集約しo3-proに計画立案依頼→ 実際に意思決定が変化
従来型評価（単純な質問）では性能差が見えにくい 課題
現代AIは「統合」フェーズ へ
- 単体テストでは限界、 社会やツールとの協働が重要
- ツール呼び出し・外部情報連携・適切な質問判断力 でo3-proがリード

o3-proの特徴と他モデル比較

o3-proはOpusやGemini 2.5 Proと全く異なる体験
- Claude Opusは「大きい」印象だが、o3-proは 具体的で質の高い回答
- 環境認識・適切なツール選択能力 が向上
十分な文脈がないと過剰分析傾向、直接の実行はやや苦手
- 例：ClickHouse SQLはo3の方が優れる場合も

プロンプト設計とAI統合の重要性

最適なプロンプト設計（ガイド・文脈付与）が依然重要
- o1向けプロンプトガイドは今も有効
- 「ハーネス」（モデル・ツール・メモリ等の組み合わせ）設計がAI製品の鍵
システムプロンプトの影響が大きい
- o3よりも o3-proで顕著に挙動が変化
- Claude OpusやGeminiと比べ、 o3-proは全く別次元の応答品質
OpenAIは垂直型強化学習（Deep Research, Codex）路線を推進
- ツール利用だけでなく「いつ使うか」の推論力強化

今後のAIモデル評価と社会統合

モデル単体評価の限界、社会・ツールとの連携が課題
- 高IQな12歳が大学に行く状況に例えられる
AIの「実行力」向上と現場適用が次の進化ポイント
- o3-proは 協調・オーケストレーション で特に強み
AI製品の品質 は、 プロンプト設計・文脈管理・ツール統合 に依存

このように、 o3-proは従来のモデルとは異なる文脈重視型AI として、 実用的なタスク統合やツール活用に優れる。今後は「単体性能」よりも「社会的統合力」や「実行力」がAI進化の焦点となる。

Hackerたちの意見

今はタスク特化型モデルの時代だね。一方では、友達みたいに話しかけてくれる「普通の」モデル、3.5 Sonnetや4oがあって、文章を書くのを手伝ってくれるんだ。

[M]odels today are so good … o3 pro（左）は、自分の環境の制約を明確に理解してる。文章を書くのを手伝ってくれる奇跡のモデルなのに、まだ「it's」を所有格として使ってるのが面白いよね。

└

itsとit'sについては迷ってるけど、基本的には「its」が消えてもいいかなって思ってる。文脈があれば、書き言葉や話し言葉でほとんど曖昧さがないし、所有格の不一致も変だしね。

└

AIベースのスペルチェッカーが普及するのは、もしかしたらこれからかもね。 ;)

この作品の好きなところは、o3 Proみたいなモデルから良い結果を引き出すのが本当に難しいってことを強調してるところ。まだ、o3 Proを使うタイミングが全然掴めてないんだ。どんな問題があって、大きなモデルに数分間計算させる価値があるのかな？今は普通のo3をすごく楽しんでるよ、特にこの前の大幅な値下げのおかげで。o3 Proは、ちょっと理解するのが難しいな。

└

同じく、他の人がどのタスクにどのモデルを使うか決める方法を知りたいな。こういう数分間の反復作業が本当に苦痛で、実際にはいつも速い非推論モデルを選んじゃうんだ。

└

ふと思ったんだけど、知識ベースを全部ぶち込んで（Obsidianとか）、再整理させたり、重複や古い情報を削除させたり、最適化させたりするのもアリだよね。あるいは、プログラミング以外のXについて自分が知ってることを教えて、それをもっと分かりやすく説明してもらうとか。コーディングの場合は、自分のコードを見てもらって、大規模なアーキテクチャの変更を提案してもらうとか。こういうタスクには、まだまだモデルが足りない感じ。

└

O3 Proは、巨大な議会の法案を確実に理解できる初めてのもので、分析して副作用を警告できるようになるのかな？

└

思いついたことなんだけど、僕はあまりソースコードやドキュメントがオンラインで手に入らないプラットフォームでコーディングしてるんだ。だから、たくさんのコンテキストを提供しないといけない。一般的なシステムプログラミングの知識をこのニッチな領域に結びつけるために、もっと推論を使うことで、幻覚が少なくて、もっと体系的な推理ができるんだよね。

└

昨日、2.5 Pro、Opus 4、o3にPytorchのスクリプトをパイプライン並列から通常のDDPに変換させたんだけど、どれも完全に正しいコードは出なかったんだ。3つの異なるバージョンを組み合わせて、再度それぞれのモデルに違いを分析させても、完全には動かなかった。o3 Proが僕のタスクを解決できるかは分からないけど、挑戦的な問題を与えるにはまだまだ遠い気がする。

一方では、深い分析のために使う巨大で遅くて高価な、IQを最大化する推論モデルがある（批評にはすごく向いてる）、複雑な問題を一発で解決したり、純粋な知性の限界を押し広げたりするためにね。最近はLLMに面倒なコードの大部分を書いてもらうのが楽しいけど、こういうコメントは本当に奇妙に感じる。誰か、深い分析や「IQ最大化」を示すために高価で遅いLLMに聞けるテキストの質問を教えてくれない？事実や議論に関する質問をすると、いつも事実誤認だらけの答えが返ってきたり、学校のために誰かが書いたエッセイを読むような退屈なものが多いんだよね。

└

こういうモデルを示すための「良い」プロンプトが何か分からないけど、こんなことを聞いてみたいと思ってる。これがうまくいくかどうかは全然分からないけど。ナビエ-ストークス方程式のための、明示的で時間に対して2次のコリンの射影法のバージョンを書いてくれる？理想的には、モデルはこれ以上の詳細なプロンプトを必要としないはず。数値解析の1年生の大学院生でも、これで十分だと思う。

└

昨日o3-proに頼んだのは「1939年から1958年までのソビエト連邦のタバコ生産量を調べて、男性人口とグラフにプロットして」ってこと。

Hacker Newsで議論の続きを見る

ハクソク