世界を動かす技術を、日本語で。

OpenAIによるオープンモデル

概要

  • OpenAI が提供する新しい オープンウェイト推論モデル の特徴紹介
  • Apache 2.0 による自由な利用とカスタマイズ性強調
  • エージェントタスク に最適化された設計
  • 安全性基準 と包括的なテスト体制
  • パートナー企業 やコミュニティとの連携

OpenAI オープンウェイト推論モデルの特徴

  • あらゆる用途 にカスタマイズ可能な 推論モデル の提供
  • どこでも実行可能 な柔軟性
  • Apache 2.0ライセンス による利用自由度の高さ
    • コピーレフト制限や特許リスクを気にせず利用可能
    • 実験・カスタマイズ・商用展開のすべてで安心
  • エージェントタスク への最適化
    • 強力な 命令追従性ツール利用 のサポート
    • ウェブ検索Pythonコード実行 を含むチェーン・オブ・ソート対応
  • カスタマイズ性の高さ
    • 推論努力度 (低・中・高)の調整
    • 全パラメータのファインチューニング による用途適応
  • チェーン・オブ・ソートの完全アクセス
    • デバッグ容易化
    • モデル出力への信頼性向上

モデル性能指標

  • gpt-oss-120bgpt-oss-20bOpenAI o3OpenAI o4-mini の主要ベンチマーク
    • MMLU: 90.0(gpt-oss-120b)、85.3(gpt-oss-20b)、93.4(o3)、93.0(o4-mini)
    • GPQA Diamond: 80.1、71.5、83.3、81.4
    • Humanity’s Last Exam: 19.0、17.3、24.9、17.7
    • AIME 2024/2025: 96.6~99.5の高得点

オープンモデルの安全性基準

  • 安全性 を基盤としたモデル設計
  • 各モデルに対する 徹底した安全性トレーニングと評価
  • 悪意あるファインチューニング を想定したテスト実施
    • Preparedness Framework に基づく検証
    • 外部安全専門家によるレビュー
    • オープンモデル安全基準の大きな進展

パートナー・コミュニティとの連携

  • 主要デプロイメント企業ハードウェア企業 との協業
  • オープンソースコミュニティ への積極的なモデル提供

フィードバックとリソース

  • ユーザーからのフィードバック機能要望 を歓迎
    • 直接の返信はなし
    • サポート・議論は Hugging Face Community で受付
  • 連絡手段 としてメールアドレスの入力欄設置
    • 具体的な利用ケースや要望の共有を推奨

Hackerたちの意見

ベンチマークでo3より約5ポイント低いパフォーマンスって、かなりすごいね。もしかして、すぐにバーが上がる(GPT-5)って感じてるのかな?だからこんな強力なものをリリースするのに抵抗がないのかも。

これって、次の数日で最高のモデルがリリースされるってことを確認してるの?戦略的に考えると、これをリリースする理由がない気がするけど、何かそれを完全に上回る発表があるってこと?

今日の前から、ここ1週間くらいで、GPT-5のリリースが近いってことは明らかだったね。

すぐにリリースがなくても、いい戦略だと思うよ。Qwenや他の高性能なオープンウェイトモデルからプレッシャーを受けてるし、競争に参加しないと全体のセグメントで遅れを取る可能性がある。ライセンス、技術サポート、エージェント、あるいは単に支配して排除する機会もあるしね。ブランド認知度も無視できないよ。これが好きなら、より大きなモデルのために彼らのブランドにアプローチする可能性が高くなるかも。

GPT-5が木曜日に来るよ。

これをリリースする理由が思いつかないな、何かすごい発表があるんじゃないかって感じ。アクティブパラメータが約50億しかないから、o3や他の最先端モデルと競争することはないと思う。トップのDeepseekやQwenモデルは約300億のアクティブパラメータを持ってるし。もしOpenAIが5億のアクティブパラメータで、4〜8倍の性能を持つモデルを作る方法を見つけたなら別だけど。

確かにそうだね。そうじゃないと、今の製品の価値が下がっちゃうから。新しいモデルがどれだけここで示された指標で優れている必要があるかが問題だね。オープンモデルのリリースがないことでの面子の問題はあるけど、それが商業的な提供を下回るほどの大きな問題だとは思わないな。

木曜日 https://manifold.markets/Bayesian/on-what-day-will-gpt5-be-r...

注意:多分バカな質問なんだけど、20bモデルについて。20の同時プロセスを動かしたい場合、リソース(GPUだと思うけど)として何が必要か教えてくれる?1秒あたり1kトークンのスループットが必要だとして(それぞれで、つまり20 x 1k)。あと、このモデルはgpt-4.1-nanoと比べて情報抽出において優れてるの?それとも同等?自分で20bをホストするのは安く済む?

gpt-oss:20bはディスク上で約14GBだから、16GBのVRAMカードにちょうど収まるね。

1秒あたり1kトークンのスループットが必要だと仮定すると(それぞれに対して、つまり20 x 1k)、3.6BがQ8でアクティブになって1000 t/sで計算すると、アクティブなモデルの重みだけで3.6TB/sになる。コンテキストもあるしね。だから、ほぼB200とかその辺に直行だね。ユーザー/エージェントあたり1000 t/sは速すぎるから、300 t/sにすれば5090やRTX PRO 6000でなんとかなるかも。

A100は、バッチ推論を使った20Bモデルで多分2-4kトークン/秒だね。必要に応じてA100の数を掛け算して。ここでは、実際にはRAMはあまり必要ないよ。もしトークン/秒を少なくできるなら、消費者向けのグラフィックカードでずっと安くできる。A100でも、バッチ処理のスイートスポットでは1k/プロセス/秒は無理だよ。もちろん、H100に行くこともできるけど…。

Groqは20Bモデルで1秒あたり1000トークンを提供してるよ。オフ・ザ・シェルフのハードウェアでは、Groqに匹敵するのは難しいと思う。

24GBのMac Miniでo3に匹敵するモデルを動かすなんて、マジで驚きだよ。昨日のことのように、フロンティア(当時)のモデルをローカルやモバイルデバイスで動かすのは5年以上先の話だと思ってたのに。この調子だと、次のスマホサイクルではそんなモデルを動かしてるかも。

他のオープンソースの取り組みを追っていなければ、そう見えるだけだよ。Qwenみたいなモデルは、すごく性能が良くて、かなり制限されたハードウェアでも動くんだ。これらの新しいオープンソースモデルがどんなベンチマークになるのか楽しみだね。

そうだよね?Llamaのリリースでの安全性の騒動をまだ覚えてるよ。今は?僕の96GBの(V)RAMのMacBookで120Bパラメータのフロンティアラボモデルが動く予定なんだ。MLXの量子を手に入れて、GLM-4.5-airと比べてどう感じるか楽しみだな。

人々がMac Miniで(量子化された)中規模モデルを動かすって話をしてるとき、どんなレイテンシーやスループットの時間を指してるの?1秒に5トークンとか、実際に使える速度のことを言ってるのかな?

今、ローカルモデルをウェブで使う一番簡単な方法は何?

正直に言うと、このモデルにすごく期待してたんだけど、localllamaに行ってみたら、120Bモデルがqwen 3 coderやglm45 air、さらにはgrok 3よりもコーディングが劣ってるってわかったんだ… (https://www.reddit.com/r/LocalLLaMA/comments/1mig58x/gptoss1...)

Groq(1k+トークン/秒)とFireworksがもうopenrouterでライブになってるみたいだね。https://openrouter.ai/openai/gpt-oss-120b $0.15M入ってて、$0.6-0.75M出てる。

わあ、これ実際にめちゃくちゃ速かった。 "アメリカの45代目と47代目の大統領が同じ親を持つにはどうすればいい?"って聞いたら、ChatGPT.comのo3は13秒考えたけど、OpenRouterのGPT OSS 120Bは0.7秒で考えて、どちらも正しい答えを出してた。

非論理的に言うと、今はこのオープンモデルが安く手に入るのに、誰がo3 APIにお金を払うんだろう?面白いダイナミクスだね…。来週o3の価格を下げるのかな(今のところ10-20倍のコスト[1])?[1] 現在$3Mの収入/$8Mの支出 https://platform.openai.com/docs/pricing

わお、o4-miniよりかなり安いね。gpt-oss-120bと同じくらいの性能みたいだし。($1.10/Mの入力トークン、$4.40/Mの出力トークン) ほぼ10倍の価格だね。LLMは思ったよりもずっと早く安くなってるな。まだハイプサイクルの段階で、Groq/Fireworks/Cerebrasがここで損失を出してるのか、それとも実際に安くなってるのか気になるな。この調子だと、Qwen3-32Bレベルのモデルがすぐにスマホや組み込み機器で動くようになるね。

OpenAIがこれらのモデルの推論を提供してないのは興味深いね。

Twitterのリンクを貼るのは申し訳ないけど、ここに動画を投稿できないからね: https://x.com/tekacs/status/1952788922666205615 ちょっと複雑な技術的な話を聞いてみたら、約4秒で素晴らしい答えが返ってきて、推論に1.1秒かかったんだ。GPT-5がどんな感じになるのか、めっちゃ気になる!もしカスタムシリコンやアクセラレーターを使ってないなら、どんなに賢くても、GroqやCerebrasのオープンモデルを使わない理由が見当たらない気がする。

ちょっと関係ないけど、Ollamaがめっちゃすごいって言いたかった。モデルを見つけるのに2秒、ダウンロードに1分かかったけど、今使ってるよ。チームに拍手!

モデルカード、興味がある人向けに: https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7... 自分の中では、彼らが説明しているモデルアーキテクチャを、オープンウェイトの先駆けたち(Deepseek、Qwen、GLM、Kimi)と比べてるんだ。正直なところ、技術的には「まあまあ」って感じ。- 両方のモデルは標準的なGrouped-Query Attention(64クエリヘッド、8 KVヘッド)を使ってる。カードには、GPT3からの古い最適化を使ってるって書いてあって、バンドウィンドウ(スパース、128トークン)と完全密なアテンションパターンを交互に使ってるんだ。RoPEをYaRNで拡張して(131Kのコンテキストウィンドウ用)。だから、Deepseekの特別なMulti-head Latent Attentionや、GQAの他の改善点を活用してないみたい。- 両方のモデルは標準的なMoEトランスフォーマー。120Bモデル(116.8Bトータル、5.1Bアクティブ)は128のエキスパートを使ってTop-4ルーティングをしてる。Gated SwiGLUアクティベーションを使ってるみたいで、カードには「非伝統的」って書いてあるけど、クランプや残差接続の影響があるみたい。Deepseekの「共有エキスパート」(一般的なパターン用)や「ルーティングエキスパート」(専門化用)のアーキテクチャ改善、Qwenの負荷分散戦略なども使ってない。- 個人的に一番興味深いのは、彼らの量子化ソリューションだと思う。モデルパラメータの90%以上をMXFP4フォーマット(4.25ビット/パラメータ)に量子化して、120Bモデルを単一の80GB GPUに収めることができたんだ、これはかなりクールだね。でも、Unslothの有名な1.58ビット量子化もあるし :) つまり、エージェント行動や推論のためのトレーニングは間違いなく素晴らしいけど、実際の技術的進歩は「ポケットにしまってる」感じだね。

ニュービーな質問なんだけど、kimi 2のローンチがOpenAIにモデルのリリースを遅らせる要因になったって話を聞いたことがある。今、このモデルのパフォーマンスがわかるようになったけど、どういう感じで比較できるの?振り返ってみると、OpenAIは実際にkimiのせいでウェイトのリリースを遅らせたのかな?

オープンモデルは長期的に勝つと思う。Anthropic自身の研究もOSSモデルを使わざるを得ないし[0]。中国はオープンモデルで企業がどれだけ早くイテレーションできるかを示していて、小さなチームがトレーニングコストを払わずにモデルの能力にアクセスできるようにしてる。個人的な予測だけど、アメリカの基盤モデルメーカーは次の1〜3回のイテレーションでN-1に近いOSSを出すと思う。基盤モデルの作成にはCAPEXが高すぎて、現行世代のOSSは正当化できない。アメリカ政府が電力を補助するか、Stargateが今計画している10倍のことをやらない限り。N-1モデルの価値はすごく早く減価償却されるから、OSSをリリースして専門的なユースケースや新しい開発を可能にすることで、将来のモデル設計に価値を取り込むことができる。リスクは中程度だけど、市場シェアを失う可能性もある。でも、共有された発見が次世代の開発の速度を大幅に上げる可能性があるから、価値は高い。みんなAGI/SGIに向けて競争してる。途中のモデルは市場シェアを獲得し、データをトレーニングや評価に使うためのもの。誰かがAGI/SGIに到達したら、消費者市場はあってもなくてもいいけど、真の価値は科学や工学、世界のあらゆる側面での新しい開発にあると思う。[0] https://www.anthropic.com/research/persona-vectors > 「私たちは、Qwen 2.5-7B-InstructとLlama-3.1-8B-Instructという2つのオープンソースモデルでこれらのアプリケーションを実演します。」

gpt-oss.comのデモを使ってみて、ずっとスピンしてたらごめん!スケールアップしたから、今はスムーズになってるはずだよ!