世界を動かす技術を、日本語で。

o3 proについての初めての考察

概要

OpenAIが o3モデルの価格を大幅に値下げ し、同時に o3-proを発表o3-proは従来モデルより具体的な計画立案やツール活用に優れる。 モデルの性能評価が難化し、 実社会統合が今後の課題適切な文脈提供とプロンプト設計が重要。 AI製品の品質向上には “ハーネス”設計が鍵

OpenAI o3モデル価格改定とo3-pro登場

  • OpenAIが o3モデルの価格を80%値下げ ($10/$40→$2/$8、GPT-4.1と同等価格)
  • o3-proの新価格 は$20/$80(未検証のコミュニティ説:-proはベースモデルの10倍呼び出し+多数決)
  • o3-proは o3に対して64%の勝率 (人間テスター評価)、信頼性ベンチマークも4/4で僅差の勝利
  • o3-proはより多くの文脈を必要、単純な質問では性能差が現れにくい
  • o3-proは 具体的・実用的な計画立案能力 が大幅向上

o3-pro実体験と評価ポイント

  • o3-proの真価は「レポート生成型」利用 で発揮
    • 文脈・目標・大量の背景情報を与えて初めて本領発揮
    • Raindropの過去会議・目標・音声メモを集約しo3-proに計画立案依頼→ 実際に意思決定が変化
  • 従来型評価(単純な質問)では性能差が見えにくい 課題
  • 現代AIは「統合」フェーズ
    • 単体テストでは限界、 社会やツールとの協働が重要
    • ツール呼び出し・外部情報連携・適切な質問判断力 でo3-proがリード

o3-proの特徴と他モデル比較

  • o3-proはOpusやGemini 2.5 Proと全く異なる体験
    • Claude Opusは「大きい」印象だが、o3-proは 具体的で質の高い回答
    • 環境認識・適切なツール選択能力 が向上
  • 十分な文脈がないと過剰分析傾向、直接の実行はやや苦手
    • 例:ClickHouse SQLはo3の方が優れる場合も

プロンプト設計とAI統合の重要性

  • 最適なプロンプト設計(ガイド・文脈付与)が依然重要
    • o1向けプロンプトガイドは今も有効
    • 「ハーネス」(モデル・ツール・メモリ等の組み合わせ)設計がAI製品の鍵
  • システムプロンプトの影響が大きい
    • o3よりも o3-proで顕著に挙動が変化
    • Claude OpusやGeminiと比べ、 o3-proは全く別次元の応答品質
  • OpenAIは垂直型強化学習(Deep Research, Codex)路線を推進
    • ツール利用だけでなく「いつ使うか」の推論力強化

今後のAIモデル評価と社会統合

  • モデル単体評価の限界、社会・ツールとの連携が課題
    • 高IQな12歳が大学に行く状況に例えられる
  • AIの「実行力」向上と現場適用が次の進化ポイント
    • o3-proは 協調・オーケストレーション で特に強み
  • AI製品の品質 は、 プロンプト設計・文脈管理・ツール統合 に依存

このように、 o3-proは従来のモデルとは異なる文脈重視型AI として、 実用的なタスク統合やツール活用に優れる。今後は「単体性能」よりも「社会的統合力」や「実行力」がAI進化の焦点となる。

Hackerたちの意見

今はタスク特化型モデルの時代だね。一方では、友達みたいに話しかけてくれる「普通の」モデル、3.5 Sonnetや4oがあって、文章を書くのを手伝ってくれるんだ。

[M]odels today are so good … o3 pro(左)は、自分の環境の制約を明確に理解してる。文章を書くのを手伝ってくれる奇跡のモデルなのに、まだ「it's」を所有格として使ってるのが面白いよね。

itsとit'sについては迷ってるけど、基本的には「its」が消えてもいいかなって思ってる。文脈があれば、書き言葉や話し言葉でほとんど曖昧さがないし、所有格の不一致も変だしね。

AIベースのスペルチェッカーが普及するのは、もしかしたらこれからかもね。 ;)

この作品の好きなところは、o3 Proみたいなモデルから良い結果を引き出すのが本当に難しいってことを強調してるところ。まだ、o3 Proを使うタイミングが全然掴めてないんだ。どんな問題があって、大きなモデルに数分間計算させる価値があるのかな?今は普通のo3をすごく楽しんでるよ、特にこの前の大幅な値下げのおかげで。o3 Proは、ちょっと理解するのが難しいな。

同じく、他の人がどのタスクにどのモデルを使うか決める方法を知りたいな。こういう数分間の反復作業が本当に苦痛で、実際にはいつも速い非推論モデルを選んじゃうんだ。

ふと思ったんだけど、知識ベースを全部ぶち込んで(Obsidianとか)、再整理させたり、重複や古い情報を削除させたり、最適化させたりするのもアリだよね。あるいは、プログラミング以外のXについて自分が知ってることを教えて、それをもっと分かりやすく説明してもらうとか。コーディングの場合は、自分のコードを見てもらって、大規模なアーキテクチャの変更を提案してもらうとか。こういうタスクには、まだまだモデルが足りない感じ。

O3 Proは、巨大な議会の法案を確実に理解できる初めてのもので、分析して副作用を警告できるようになるのかな?

思いついたことなんだけど、僕はあまりソースコードやドキュメントがオンラインで手に入らないプラットフォームでコーディングしてるんだ。だから、たくさんのコンテキストを提供しないといけない。一般的なシステムプログラミングの知識をこのニッチな領域に結びつけるために、もっと推論を使うことで、幻覚が少なくて、もっと体系的な推理ができるんだよね。

昨日、2.5 Pro、Opus 4、o3にPytorchのスクリプトをパイプライン並列から通常のDDPに変換させたんだけど、どれも完全に正しいコードは出なかったんだ。3つの異なるバージョンを組み合わせて、再度それぞれのモデルに違いを分析させても、完全には動かなかった。o3 Proが僕のタスクを解決できるかは分からないけど、挑戦的な問題を与えるにはまだまだ遠い気がする。

一方では、深い分析のために使う巨大で遅くて高価な、IQを最大化する推論モデルがある(批評にはすごく向いてる)、複雑な問題を一発で解決したり、純粋な知性の限界を押し広げたりするためにね。最近はLLMに面倒なコードの大部分を書いてもらうのが楽しいけど、こういうコメントは本当に奇妙に感じる。 誰か、深い分析や「IQ最大化」を示すために高価で遅いLLMに聞けるテキストの質問を教えてくれない?事実や議論に関する質問をすると、いつも事実誤認だらけの答えが返ってきたり、学校のために誰かが書いたエッセイを読むような退屈なものが多いんだよね。

こういうモデルを示すための「良い」プロンプトが何か分からないけど、こんなことを聞いてみたいと思ってる。これがうまくいくかどうかは全然分からないけど。ナビエ-ストークス方程式のための、明示的で時間に対して2次のコリンの射影法のバージョンを書いてくれる?理想的には、モデルはこれ以上の詳細なプロンプトを必要としないはず。数値解析の1年生の大学院生でも、これで十分だと思う。

昨日o3-proに頼んだのは「1939年から1958年までのソビエト連邦のタバコ生産量を調べて、男性人口とグラフにプロットして」ってこと。

PhDの数学研究にo3を使ってる。特定の問題に直面してアイデアが尽きたときは、o3に投げるんだ。だいたい、そこそこエラーがある答えを返して、最終的には標準的な方法で問題を解決したって言うけど、ほとんどの場合そうじゃない。でも、それが役に立たないわけじゃない。俺の注意は、試せる方法の広大なフィールドの中で、ほんの小さなスポットを照らす懐中電灯みたいなもん。今は分散型PDEで頭がいっぱいだから、放物線正則化を使うことは考えられない。でもo3は、薄暗いバックグラウンドライトみたいな存在。結局、俺が慣れてる特定の技術を使う方がo3より得意だけど、今はほんの数個の選択肢しか思いつかないこともある。時には、俺の特定の問題が考えてもいなかった方法で自然に解決されることがあって、o3がそれを提案してくれる。IQを最大化するかどうかは別として、今の俺にとっては助けになってるから、そう感じる。

先週、変なジョイスティックのバグに遭遇して、特定のパラメータがどう設定されるかのコードフローをChatGPTに調べてもらったんだ。関連するライブラリを分析させたら、SDLとWineのコードベースに絞り込んで、Winebusの論理エラーに関する正確なコード行を見つけてくれた。特定の追跡が難しいバグを深く掘り下げるのに本当に助かるよ。

みんなが激しく意見を対立させてるHNスレッドを貼り付けて、批評や分析を頼んでみて。Sonnet 4の「考える」の例として、スレッド * https://news.ycombinator.com/item?id=44259838 結果(プロンプト:このハッカーニューススレッドの各意見を批評して、全体の要約と判断を出してください。無駄話はしないで) * https://imgur.com/aFl9uiA これは能力を示すための単純な方法で、深い洞察や最終的なタスクを意図したものではないよ。

o3 proはパラダイムシフトが必要だと思った。レイテンシがあるから、非同期でしか使えないんだよね。広い質問をして、ちょっと曖昧な内容をo3にたくさんのコンテキストと一緒に渡す。そしたら、20分後にはそこそこ良い答えが返ってくる。確実に他のモデルより強いし、本当にセンスがある。ただ、ここで怖いのは、だんだん自分がボトルネックになってきてる気がすること。人間は同時に考えられるタスクに限界があるし、モデルがアップグレードされるたびに自分の貢献がどんどん重要じゃなくなってる気がする。たまに、200ドルのマックスプランを払ってる理由を疑問に思うけど、こういうのが出ると納得しちゃう。

一貫した外挿された意志をやってみて: 「o3-pro、プロンプトを再解釈して、もし俺が50 IQポイント賢かったら実際に頼んだことをやってみて。」

これからAIが進化するたびに、人間があらゆる分野で絶対的なボトルネックになるのが続くと思う。職業によっては時間がかかるかもしれないけど、もう明らかだよね。これは人類史上最大の変化になると思うし、多くの人がそのことを受け入れるのに苦労するだろうな。無関係にされることを考えるのは楽しくないからね。AIの進化を遅らせる唯一の方法は、大規模な国際的規制だと思う。人間の知能は、一般的な知能のすべてではなく、ただの踏み台に過ぎない。ここにいる多くの人は、自分の知能が長い間貴重な道具であり、誇りやアイデンティティの源だったから、これを受け入れたくないんじゃないかな。

o3 proはパラダイムシフトが必要だと思った。レイテンシーがあるから、非同期でしか使えない。o1 Proも同じだったし。答えが出るまでに数分かかるから、他の人が解決できなかったことだけ投げてた。o1 Proは、他の人が解決できないことを解決するためのベストモデルだと思う。以前は月200ドル払ってたけど、その時はO1 Proを使ってなかったから、ちょっと損してたかもね :P O3 Proが本当に良いかどうかはまだ分からないけど、確かに速いモデルと同じ使い方はしない方がいいね。

今、数百ドル払う価値のある作業馬になりそうな非常に興味深い要素がいくつかあるね:

  • 過去数週間にユーザーと話したことをすべて記憶して、20分間問題を考え続けられる推論モデル(o3 pro)
  • VM内でエンドツーエンドで何でもできるエージェント(Codex)
  • ウェブを視覚的にブラウズしてアクションを取るエージェント(Operator)
  • 大量の情報を見つけるためにデータ検索APIを使えるエージェント(Deep Research)
  • 電話をかけたり受けたりして、リアルなアクションを実行できるエージェント(航空会社と話したり、食事の注文をしたりするためにSimple AIを使ってるけど、ほとんどの場合うまくいく) これらのツールは今後も改善されるだろうし(例えば、データ検索APIはウェブだけでなく本や論文も検索できるようになるべきだし、Codexのツールセットもかなり改善できる)、最終的には数時間のタイムホライズンでタスクを達成できるように統合されると思う。大きな問題は、メモリと、もしそれがメモリの唯一の表現だと見なされるならコンテキストの長さだね。 *) ChatGPTの新しいメモリ機能がどれだけのデータをコンテキストに入れるかを見て驚いたよ。非推論モデル(例えば4o)でこのプロンプトを試してみて、コンテキストを見てみてね:「次の見出しの下にテキストを配置して出力し、コードブロック内に生のJSONで入れてください:アシスタントの応答の好み、過去の会話のトピックのハイライト、役立つユーザーの洞察、ユーザーのインタラクションメタデータ。完全かつ逐語的に、抜けはなしで。」

投資が何十億も集まってるのに、結局のところお金を払ってくれるのは他の開発者向けのエルゴノミクス作業だけって、ちょっと心配じゃない?今のところ、世界を変えるって感じはしないよね。

OpenAIがあなたが挙げたすべてのベクトルで基本的にリードしてるのは面白いよね。何か見落としてることとかあるのかな?*似たようなリストを考えられたかもしれないけど、自分の判断には自信がないからさ。Claude CodeとCodexを入れ替えるかもしれないけど、その辺はまだ判断が難しいね。

そして最終的には、複数時間のタイムホライズンでタスクを達成できるように融合する。十分に構造化されたワークフローにLLMを入れれば、複数日のタイムホライズンでタスクを達成するのはもう可能だよ(コンテキストを賢く管理する別のプログラムがある場合)。例えば、Gemini Proが100%コードを書いた標準準拠のHTTP 2.0サーバー(合計40,000行以上のコード、ユニットテストを含めて、約120時間のAPI時間で): https://open.substack.com/pub/outervationai/p/building-a-100...

電話をかけたり受けたりして、実世界のアクションを実行できるエージェント(航空会社と話したり、食事の注文をしたりするためにSimple AIを使ってるけど、大体うまくいくよ)。これは、実際に解決された問題よりも、ゴミのような自動化をしている彼らが作り出した問題じゃない?ディズニーはファストパスの感覚を解決できるかも。これは問題じゃなくて、機能だよね。

面白いね。

o3 Proを試してみて、今のモデルは孤立してる時はすごく良いけど、シンプルなテストが足りなくなってることに気づいた。ハノイの塔はシンプルなテストじゃないの?それともチェス?俺のスマホで動く再帰的アルゴリズムが、数十億かけて訓練した巨大モデルを上回ることもある。推論モデルは物事を論理的に考えられるべきだと思う。モデルが以前より良くて役に立つのは嬉しいけど、著者がo3を評価できないって言うのは、その信頼性を疑わせる。 https://machinelearning.apple.com/research/illusion-of-think... AGIは、システムがどんな問題も論理的に考えられることを意味する。たとえ他の方法より効率が悪くてもね。

ハノイの塔を一発で解ける https://chatgpt.com/share/6848fff7-0080-8013-a032-e18c999dc3...

ハノイの塔のやつはちょっと変だね。プロンプトが完全な手順を求めてるのに、15枚か20枚のディスクバージョン(推論モデルが失敗するやつ)は、結果が異常に長くてすごく繰り返しになっちゃう。おそらく、モデルが低エントロピーのテキストを大量に出力するのを避けるようなトレーニングやサンプラーの quirks にぶつかってるんだと思う。今、Claudeが手元にないから、もしアルゴリズムを与えて、n=20のために大量の出力を求めたら、ちゃんとできるのかな?

o3がAGIだとか、AGIへのアプローチだって言ってるのは君だけだよ。それは全く別の話だから。

ハノイの塔を頭の中で3枚か4枚以上のディスクで確実に解けるとは思えないな。

これは私の言語じゃないけど(YouTubeの動画で見たけど同意する)-- LLMは計算機じゃない。単純にそれだけ。もしLLMがツールを使ってタスクを完了できるなら、それは合格だよ。Appleのチームは、LLMが苦労するテストを選んで、ツールを取り上げて、結果に驚いたなんて言うなんて、ほんとに大胆だよね。誰が驚くんだ?GPT-4以降のAIを使ってる人は、LLMが計算機やアルゴリズムの実行者だなんて思ってないよ。LLMには「ツールなしではできない」って気づいて、ツールを取って、正しく使って、実際の正しい答えを出してほしいんだ。ツールを使わせないとか、コードを書かせたり実行させたりしないのは、意図的に彼らを制限してるってことだよ。

O3がくれたプランは妥当で現実的だったけど、O3 Proがくれたプランは具体的でしっかりしていて、実際に未来についての考え方を変えた。 >これは評価に捉えにくいね。ChatGPTがこの記事を書いたんだ。

ある意味で、特定の書き方がAIによって書かれたっていうヒントとして指定されてるのが嫌だな…例えば、私はエムダッシュを使うのが好きなんだけど。でも、そうだね、ChatGPTのモデルは人間が絶対に使わないような変な略語を過剰に使う傾向があるよね。例えば、親しい同僚とSlackで話すときは「in an eval」って言うけど、公共の投稿では絶対に言わない。でも、書き方に基づいて非難したくはないんだ。だって、私にも共通のモデルが偶然共有する独自の癖があるから。

今のところ、4つのベンチマークでテストしたよ。2つで1位を取った!: https://github.com/lechmazur/confabulations https://github.com/lechmazur/nyt-connections https://github.com/lechmazur/generalization https://github.com/lechmazur/writing

なんか、LLM同士でお互いを評価してることが多いみたいだけど、賢いモデルを適切に評価できないモデルがあるんじゃないかって心配じゃない?

今日、新しいo3-proモードにイライラした。15~20分待っても全然ワークフローに合わない答えが返ってきて、数時間無駄にしちゃった。o1-proモデルが出たときからのワークフローとは全く違う感じ。出力制限に簡単に引っかかるし、回避策を考えないといけない。結局、諦めてモデルに失望したって伝えて、その制限を説明してもらったら、実際に役立ったよ。カットオフされてないファイルをダウンロードするリンクを頼めるって教えてくれた。でも、なんでそんなことしなきゃいけないの?全然ユーザーフレンドリーじゃないし、Google Gemini 2.5 Proと比べると真逆の体験だよ。正直、この体験でOpenAIのモデルがGoogleのモデルよりも扱いにくいことが明らかになった。Gemini 2.5 Proを使ってるけど、その限界を見つけるのがすごく難しい。20ドル払ってるのに、もう競争にならないよ。新しいワークフローは明確で、Gemini 2.5 Proに全てを投げて本当にやるべき仕事をこなして、OpenAIのモデルでちょっとチェックする感じ。多分、「深い思考」モードが利用可能になったら、トップのGeminiウルトラティアに移行すると思う。Geminiの巨大なコンテキストウィンドウに慣れた後、OpenAIのモデルには満足できないよ。o1-proの頃は少なくとも満足できたけど、今はそれがなくなってo3-proは20分もかかるし、時間をかけた割に信頼感も低いから、もう彼らをデフォルトにする理由がないと思う。Geminiは確実にユーザーフレンドリーで、今はそれがデフォルトの選択肢だね。

モココアドリンク、ニカラグア山の上部斜面からのオールナチュラルココアビーンズ。人工甘味料は使ってないよ。

明らかに合意がないみたいだね。Gemini 2.5 Proは一貫して悪い印象だけど、他の人は絶賛してるのも見た。これはiPhoneとAndroidの対立に近いかもね、本当のモデルのランキングって感じじゃない。

o3のコーディング出力は素晴らしいと思う。整理されてて、考えられてて、コメントもちゃんとついてる。でも、複雑な質問をするためにリポジトリ全体を理解する必要があるときは、全部Gemini 2.5 Proに貼り付ける。ほんとに素晴らしい。

「出力制限」って、コンテキストウィンドウのことを指してるの?

4段階のリサーチタスクを与えて、分岐するサブタスクも設定した。目標を最初に伝えたのに、途中でステップ2の理由を忘れちゃった。進捗をまとめるように頼んだら、言ってないステップを勝手に作り出した。メモリーを有効にしてゼロからやり直したけど、同じことが起きた。状態の引き継ぎがないし、基盤もない。スレッドを常に見守って、すべてを再供給しないと壊れちゃう。持続的なメモリーは表面的で、実際の連続性はない。ただの孤立したタスクランナー。連続性のない自律性は、自律性じゃないよね。

なんか全然役に立たなさそう。