OpenAIによるオープンモデル

2025年8月6日原文(openai.com)

概要

OpenAI が提供する新しい オープンウェイト推論モデル の特徴紹介
Apache 2.0 による自由な利用とカスタマイズ性強調
エージェントタスク に最適化された設計
安全性基準 と包括的なテスト体制
パートナー企業 やコミュニティとの連携

OpenAI オープンウェイト推論モデルの特徴

あらゆる用途 にカスタマイズ可能な 推論モデル の提供
どこでも実行可能 な柔軟性
Apache 2.0ライセンス による利用自由度の高さ
- コピーレフト制限や特許リスクを気にせず利用可能
- 実験・カスタマイズ・商用展開のすべてで安心
エージェントタスク への最適化
- 強力な 命令追従性 と ツール利用 のサポート
- ウェブ検索 や Pythonコード実行 を含むチェーン・オブ・ソート対応
カスタマイズ性の高さ
- 推論努力度 （低・中・高）の調整
- 全パラメータのファインチューニング による用途適応
チェーン・オブ・ソートの完全アクセス
- デバッグ容易化
- モデル出力への信頼性向上

モデル性能指標

gpt-oss-120b、 gpt-oss-20b、 OpenAI o3、 OpenAI o4-mini の主要ベンチマーク
- MMLU: 90.0（gpt-oss-120b）、85.3（gpt-oss-20b）、93.4（o3）、93.0（o4-mini）
- GPQA Diamond: 80.1、71.5、83.3、81.4
- Humanity’s Last Exam: 19.0、17.3、24.9、17.7
- AIME 2024/2025: 96.6～99.5の高得点

オープンモデルの安全性基準

安全性 を基盤としたモデル設計
各モデルに対する 徹底した安全性トレーニングと評価
悪意あるファインチューニング を想定したテスト実施
- Preparedness Framework に基づく検証
- 外部安全専門家によるレビュー
- オープンモデル安全基準の大きな進展

パートナー・コミュニティとの連携

主要デプロイメント企業 や ハードウェア企業 との協業
オープンソースコミュニティ への積極的なモデル提供

フィードバックとリソース

ユーザーからのフィードバック や 機能要望 を歓迎
- 直接の返信はなし
- サポート・議論は Hugging Face Community で受付
連絡手段 としてメールアドレスの入力欄設置
- 具体的な利用ケースや要望の共有を推奨

Hackerたちの意見

ベンチマークでo3より約5ポイント低いパフォーマンスって、かなりすごいね。もしかして、すぐにバーが上がる（GPT-5）って感じてるのかな？だからこんな強力なものをリリースするのに抵抗がないのかも。

これって、次の数日で最高のモデルがリリースされるってことを確認してるの？戦略的に考えると、これをリリースする理由がない気がするけど、何かそれを完全に上回る発表があるってこと？

└

今日の前から、ここ1週間くらいで、GPT-5のリリースが近いってことは明らかだったね。

└

すぐにリリースがなくても、いい戦略だと思うよ。Qwenや他の高性能なオープンウェイトモデルからプレッシャーを受けてるし、競争に参加しないと全体のセグメントで遅れを取る可能性がある。ライセンス、技術サポート、エージェント、あるいは単に支配して排除する機会もあるしね。ブランド認知度も無視できないよ。これが好きなら、より大きなモデルのために彼らのブランドにアプローチする可能性が高くなるかも。

└

GPT-5が木曜日に来るよ。

└

これをリリースする理由が思いつかないな、何かすごい発表があるんじゃないかって感じ。アクティブパラメータが約50億しかないから、o3や他の最先端モデルと競争することはないと思う。トップのDeepseekやQwenモデルは約300億のアクティブパラメータを持ってるし。もしOpenAIが5億のアクティブパラメータで、4〜8倍の性能を持つモデルを作る方法を見つけたなら別だけど。

└

確かにそうだね。そうじゃないと、今の製品の価値が下がっちゃうから。新しいモデルがどれだけここで示された指標で優れている必要があるかが問題だね。オープンモデルのリリースがないことでの面子の問題はあるけど、それが商業的な提供を下回るほどの大きな問題だとは思わないな。

└

木曜日 https://manifold.markets/Bayesian/on-what-day-will-gpt5-be-r...

注意：多分バカな質問なんだけど、20bモデルについて。20の同時プロセスを動かしたい場合、リソース（GPUだと思うけど）として何が必要か教えてくれる？1秒あたり1kトークンのスループットが必要だとして（それぞれで、つまり20 x 1k）。あと、このモデルはgpt-4.1-nanoと比べて情報抽出において優れてるの？それとも同等？自分で20bをホストするのは安く済む？

└

gpt-oss:20bはディスク上で約14GBだから、16GBのVRAMカードにちょうど収まるね。

└

1秒あたり1kトークンのスループットが必要だと仮定すると（それぞれに対して、つまり20 x 1k）、3.6BがQ8でアクティブになって1000 t/sで計算すると、アクティブなモデルの重みだけで3.6TB/sになる。コンテキストもあるしね。だから、ほぼB200とかその辺に直行だね。ユーザー/エージェントあたり1000 t/sは速すぎるから、300 t/sにすれば5090やRTX PRO 6000でなんとかなるかも。

└

A100は、バッチ推論を使った20Bモデルで多分2-4kトークン/秒だね。必要に応じてA100の数を掛け算して。ここでは、実際にはRAMはあまり必要ないよ。もしトークン/秒を少なくできるなら、消費者向けのグラフィックカードでずっと安くできる。A100でも、バッチ処理のスイートスポットでは1k/プロセス/秒は無理だよ。もちろん、H100に行くこともできるけど…。

Hacker Newsで議論の続きを見る

ハクソク