世界を動かす技術を、日本語で。

GPT-5: 主要な特徴、価格、システムカード

概要

  • GPT-5 はOpenAIの最新LLMで、実用性と安定性が大きく向上
  • 3つのモデル(GPT-5、Mini、Nano) で幅広いニーズに対応
  • 競争力の高い価格設定 と大容量トークン制限が特徴
  • 安全性・幻覚対策・シコファンシー低減 など多方面で改善
  • APIやChatGPTでの利用体験、システムカードの要点を解説

GPT-5の主な特徴と位置付け

  • GPT-5はOpenAIモデル群の中核 として設計され、従来モデルの多くを置き換え
  • ChatGPT版GPT-5 は、質問内容や難易度に応じて複数モデルを自動切り替えするハイブリッド構成
    • 通常応答用の高速モデル、難問用の深い推論モデル、リアルタイムで最適モデル選択を行うルーターを搭載
    • 利用上限到達時はmini版が応答を担当
    • 近い将来、これら機能を単一モデルに統合予定
  • API版GPT-5 は「regular」「mini」「nano」の3種
    • それぞれ「minimal」「low」「medium」「high」の4段階推論レベル選択可能
    • 入力上限272,000トークン/出力上限128,000トークン (不可視推論トークン含む)
    • 入力はテキスト・画像、出力はテキストのみ に対応

OpenAIモデルファミリー内での位置

  • GPT-5シリーズは従来モデルの多くを置換
    • 例:GPT-4o→gpt-5-main、GPT-4o-mini→gpt-5-main-mini、o3→gpt-5-thinkingなど
    • GPT-5 Pro (thinking-pro)はChatGPTの$200/月プラン限定、並列テスト計算を活用
  • 音声入出力や画像生成 はGPT-4o AudioやDALL-Eなど他モデルが担当

価格設定

  • 非常に競争力の高い価格
    • GPT-5: $1.25/百万入力トークン、$10/百万出力トークン
    • GPT-5 Mini: $0.25/百万入力、$2.00/百万出力
    • GPT-5 Nano: $0.05/百万入力、$0.40/百万出力
    • GPT-4oの半額以下の入力価格、出力は同等
    • 不可視推論トークン も出力トークンとして課金対象
    • トークンキャッシュ割引 (直近数分以内の再利用入力トークンは90%割引)
      • チャットUI実装時など、会話履歴再利用で大きなコスト削減
  • 競合モデルとの比較
    • Claude Opus 4.1やGemini 2.5 Proなどに比べ 大幅に安価
    • NanoモデルはAmazon Nova Microなど最安値層と同等

システムカードから読み取れるポイント

  • 学習データ詳細は非公開 だが、公開インターネット情報、提携先データ、ユーザー提供データ等を多用
  • 高度な個人情報除去フィルタリング
  • 主なユースケースは「文章作成」「コーディング」「健康」
    • 特に健康分野の強化が顕著
  • 幻覚・指示遵守・シコファンシー(迎合)低減に注力
    • Safe-completions :安全性重視の出力中心トレーニング
      • 単純な拒否ではなく、内容を安全に調整して返答
      • 詳細はOpenAI論文「From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training」を参照
    • シコファンシー抑制 :会話データを用いた報酬設計で迎合発言を減少
    • 幻覚減少 :事実誤認が大幅減、特にAPI利用時の内部知識依存時に効果
    • 誤魔化し防止 :困難なタスクで「できない」と正直に答えるよう強化

プロンプトインジェクション耐性

  • 外部レッドチームによる2週間の脆弱性評価
    • GPT-5-thinkingの攻撃成功率は 56.8% と他モデルより低いが、依然として完全解決には至らず
    • 複数回試行(k=10)で半数以上が突破、引き続きアプリ側で対策必要

APIの思考トレース取得

  • APIで思考トレース(reasoning summary)取得可能
    • 例: curlコマンドで"reasoning": {"summary": "auto"}指定
    • reasoning_effort=minimal で推論を最小化し、応答速度向上も可能

SVG生成ベンチマーク

  • 「ペリカンが自転車に乗るSVG」生成タスクで高精度
    • GPT-5(medium推論)、Mini、Nanoいずれも良好なSVGを生成

まとめ

  • GPT-5シリーズは実用性・コスト・安全性で大きな進化
  • 多様な推論レベル・モデル選択で幅広いニーズに対応
  • 幻覚・迎合・安全性・プロンプトインジェクション耐性も着実に改善
  • API・ChatGPTいずれでも高い満足度
  • 一部機能は他モデルと併用が必要(音声・画像生成など)

参考リンク

  • システムカード: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb...

Hackerたちの意見

つまり、「システムカード」って今は「ペーパー」のことを指してるけど、詳細はあんまりないってこと?

いや、システムカードは営業用のものだよ。他の市場では一般的に「プロダクトシート」って呼んでると思う。

AIラボは評価や安全性の研究プロセスを説明するために「システムカード」を使う傾向があるね。以前はトレーニングプロセスそのものについてもっと詳しかったけど、最近はますます秘密主義になってる。

彼らのモデルが採用やビジネス、教育などで使われてるのに、この数十億ドルの会社がすごく人工的な質問(BBQ)を使ってモデルの公平性を評価してるのはちょっと残念だな。

知っておいてよかった - > GPT-5の知識カットオフは2024年9月30日、GPT-5ミニとナノは2024年5月30日だよ。

おお、つまり、トレーニングとテストにフルで1年かかったってこと?それとも、準備が整ってたけど、リリースを延期するほどの良いビジネス戦略があったのかな?

こんなに早い知識のカットオフは変だね。Claude 4.1は2025年3月で、6ヶ月も新しいのに結果は同等だし。

「APIのGPT-5はシンプルで、通常版、ミニ、ナノの3つのモデルがあって、それぞれ4つの推論レベル(ミニマル、ロー、ミディアム、高)で動かせる。」実際にシンプルなのかな?今GPT 4.1を使ってる人にとっては、選択肢が3つ(4.1、4.1ミニ、4.1ナノ)から少なくとも8つに増えるわけで、GPT 5の通常版を考えなければ、GPT 5ミニのミニマル、ロー、ミディアム、高、GPT 5ナノのミニマル、ロー、ミディアム、高の中から選ばなきゃいけない。これだけの選択肢の中で、プロンプトを調整した方がいいのか、それとも単にGPT 5のバージョンや推論レベルを変えた方がいいのか、いつも悩むことになるよね。

うん、そう思う。n=1,2,3 m=0,1,2,3って感じ。構造があって、各パラメータがどの方向に上がるか分かるよね。

推論が話題に上がるなら、o3-mini-high、o3-mini-medium、o3-mini-low、o4-mini-high、o4-mini-medium、o4-mini-lowを4.1バリアントに追加しなきゃいけなかったよね。GPT-5のやり方の方がシンプルに感じるな。

でも今のところ、ここにGPT-5のデフォルトの「ミディアム」推論努力で得たペリカンがあるよ:ロー、ミディアム、高の推論努力のペリカンの比較が見れたら面白かったな :) 最近GPT-OSS-120bをいじってみたけど、最終的な答えの違いがすごく大きいね。「ロー」は基本的に「推論なし」で、「ハイ」だと無限にトークンを使える感じ。GPT-5でも似たような違いが出ると思う?

低、中、高の推論努力を持つペリカンの比較が見れたら面白かったな。うん、今それに取り組んでるよ。後で何十匹ものペリカンを紹介する予定だから、楽しみにしてて!

誰か、なぜgpt-5を含む推論モデルから温度やtop-pのパラメータコントロールが削除されたのか説明してくれない?これがあると、一貫性の高い小さなタスクを構築するのが難しくなる気がするし、APIでは特定のタスクを低温に設定できる機能をすごく重視してるんだ。

すべてのサンプラー設定が安全性や整合性を壊すからなんだよ。だから、top_pやtop_kはまだ使われていて、tfsやmin_p、top_n sigmaなどは使われてない。温度が0-2の任意の範囲にロックされてるのもそのせい。オープンソースはサンプラーに関しては数年先を行ってるから、彼らのモデルがこんなに優れてるのは本当にすごいことなんだ。

ここでの攻撃的な価格設定は、OpenAIにしては珍しいね。もし大きな競争優位があれば、こんなことしなくても済むはずだし。競争は本当に激しいね。

もしかしたら、需要/欲求データかも。

Nanoが5セントって面白いね。これでGoogleが最近じわじわ上がってきてる価格を下げざるを得なくなるかも。

5%くらい良くなった感じ。明らかにGemini 2.5 Proと価格競争しないといけなかったんだろうね。特にCursorがデフォルトを変えたから。

アプリでは大きく勝っているけど、APIでは人間に負けてるみたいだね! https://finance.yahoo.com/news/enterprise-llm-spend-reaches-...

すごいね、信頼性が増してきてるみたいで嬉しいけど、ここ2年でみんなが言ってたGPT-5のことを考えると、もっと衝撃的なリリースになると思ってたから、徐々に安定して改善されてるって感じはちょっと意外だよね。純粋にスケーリングを追求するのが終わりを迎えてる気がする。もし、より良いルーターやツールを作ったり、特定のタスクに特化したサブモデルを組み合わせたりしてるなら、新しいパフォーマンス向上の方法を探してるってことだよね。つまり、他の確立されたアプローチがうまくいってなかったってことかも。間違ってるかもしれないけど、もし単に計算能力を増やすだけで解決できるなら、OpenAIは既存の戦略を最適化して、平均的なユーザーインタラクションのマージナルな改善にそんなに時間をかけてないはずだと思う。今の技術でAGIを達成するにはもっとデータや計算が必要っていう考えには否定的なんだけど、もしかしたら偏見が強いのかもね。全体的に気になるのは、業界のラボが閉鎖的になってるせいで、これらのモデルの実際の状況が全然わからないってこと。プレゼンからはマーケティング用語以外は期待できない感じだし。大規模な投資があるから仕方ないのかもしれないけど、次にすごいモデルのリリースがあるかもしれないし、誰にもわからないよね。

2年前に考えてたこととは違う方向に進んでるけど、その間に何が起こったかを忘れちゃいけないよね(4o, o1 + 思考パラダイム, o3)。だから、もしかしたらもっと徐々に改善されてるのかも。でも、それはいいことだと思う。早く良いことが増える方がいいし、世界を揺るがすようなことよりもそっちがいい。gpt-4の初リリース以降に起こったことを考えると、実際にはかなり衝撃的なことがあったと言えると思う。

GPT-4と比べると、完全に異なるレベルにあるね。推論モデルだから、その点ではちゃんと機能してるし、単なるスケーリングじゃない。でも、これに関しては革命はo1で、GPT-5はその技術のもっと成熟したバージョンって感じかな。

同意するよ、今やGPUが情報を取り込んで、さまざまなタスクのコンテンツを生成するためにトレーニングできることが証明された。でも、それを実際に使えるようにするには、特定の問題についてもっと考える必要があるし、技術をどう適用するかが重要だよね。もしGPTに「1年以内に$1Bの価値が保証されるスタートアップを作って」って頼めば、誰かがすでにやってるはずだし、まだまだ努力が必要だと思う。とりあえず、彼らが最も一般的なミスを少なくするようにトレーニングする方法を見つけるのは、価値のある努力だね。

パフォーマンスは大体4〜7ヶ月ごとに倍増してる。そのトレンドは続いてるし、すごいことだよね。もし期待がそれ以上だったら、ちょっとハイプに巻き込まれてたかも。年に2〜3回倍増するのは全然停滞してないよ。 https://metr.github.io/autonomy-evals-guide/gpt-5-report/

私はこれに関して結構嬉しいよ。人間の能力を補強するLLMが好きなんだ。人々がもっと多くのことを成し遂げたり、もっと野心的になったりする手助けをするツールね。AGIの一般的な概念は、人間の代替に関するものが多いみたいで、「経済的に価値のあるタスク」を人間よりも上手くこなす能力を指している気がする。そこで私たちの人間の生活や経済がどうなるのか、まだ理解できていないんだ。個人的にGPT-5に求めていたのは、まさに今手に入れたもの:既存のモデルがやっていることを、もっと信頼性高く「良く」やるモデルだよ。

ツールの使い方やマルチモーダルな能力において静かな革命が起きている。一般的な知能に対する穏やかな漸進的改善がある一方で、マルチステップのツール使用や世界とのインタラクション能力においては劇的な改善が見られる。これらは最終的に一般的な知能にフィードバックされるだろうね。

この記事の重要な情報はこれだね:> ------------------------------- "reasoning": {"summary": "auto"} }' これがそのAPIコールからのレスポンスだよ。 https://gist.github.com/simonw/1d1013ba059af76461153722005a0... このオプションがないと、モデルが思考トークンを消費するまで、APIが長い遅延を提供することが多いから、最終的なレスポンスの可視トークンが返ってくるまで時間がかかるんだ。

会話のタイプ、複雑さ、ツールの必要性、明示的な意図に基づいて、どのモデルを使うかをすぐに決めるリアルタイムルーター。これはちょっと面白いね。今まで、システムプロンプトやガードレールを除けば、根底にあるモデルにほぼ直接アクセスできてたけど、これからは私たちとモデルの間にもっとインフラができるのかな。