概要
- OpenAI が新たに gpt-oss-20b/120b というオープンウエイトLLMを公開
- 最新の トランスフォーマー系技術 と効率的な実装を採用
- MoE や GQA など現代的な設計要素を導入
- ローカル実行 も可能な最適化済みモデル
- GPT-5 との比較やベンチマークも簡単に紹介
OpenAIの新オープンウエイトLLM「gpt-oss-20b」「gpt-oss-120b」概要
- OpenAI が2019年の GPT-2 以来となる大規模 オープンウエイトモデル を公開
- gpt-oss-20b は一般的な16GB GPUで、 gpt-oss-120b はH100(80GB)等でローカル実行可能
- モデルの設計は従来のトランスフォーマーアーキテクチャをベースに、現代的な改良を多数採用
- 公式モデルページ(Hugging Face)で 重みとコード が公開
- https://huggingface.co/openai/gpt-oss-20b
- https://huggingface.co/openai/gpt-oss-120b
- モデルの進化や設計思想、他モデル(GPT-5等)との比較が注目点
アーキテクチャ比較:GPT-2との違い
- gpt-ossシリーズ と GPT-2 は共に「デコーダー専用」トランスフォーマーLLM
- モデル設計の進化は主に 細かな最適化 や 新技術の導入 によるもの
- ドロップアウト はGPT-2で採用、現代LLMではほぼ未使用
- 単一エポック学習が主流となり、 過学習対策 としての効果が薄いため
- 位置エンコーディング は絶対位置埋め込みから RoPE 方式へ移行
- RoPE(Rotary Position Embedding)は2021年登場、Llama以降で標準技術に
- 活性化関数 は GELU から Swish へ
- Swishは計算コストが低く、ほぼ同等以上の性能
- Google Gemmaなど一部モデルは現在もGELUを使用
フィードフォワード層の進化:GLUとMoE
- 従来の フィードフォワード層 (2層MLP)は GLU(Gated Linear Unit) に置換
- 3層構成でパラメータ数は少なく、 表現力 が向上
- SwiGLUやGEGLUなどのバリエーションあり
- Mixture-of-Experts(MoE) 構造を採用
- 複数の専門家層(Expert)から一部のみを動的に選択
- 総パラメータ数が増える一方、 推論時の計算コストは抑制
- 学習時の知識容量増加、90%以上のパラメータがExpertに割り当てられる
Attentionの最適化:GQA
- Grouped Query Attention(GQA) を導入
- 複数のAttentionヘッドでKey/Valueを共有し、 計算効率とメモリ効率 を向上
- Multi-Head Attention(MHA)に比べてパラメータ・計算量を削減
- 性能低下はほぼ見られず、現代LLMで広く採用
モデルのローカル実行と最適化
- gpt-oss-20b は16GB RAMの一般GPUでローカル実行可能
- gpt-oss-120b はH100等の最新GPUで単体実行が可能
- MXFP4 などの量子化・最適化技術により、計算資源の要求を抑制
まとめ・今後の展望
- gpt-ossシリーズ は最新のLLM設計技術を集約
- トランスフォーマーアーキテクチャ が依然として主流
- データとアルゴリズムの最適化 が性能向上のカギ
- GPT-5 など新世代モデルとの比較・ベンチマークも今後注目
- 実運用・多ターン対話・コーディングタスク等、さらなる評価が期待
参考文献・リンク
- OpenAI公式モデルページ(Hugging Face)
- https://huggingface.co/openai/gpt-oss-20b
- https://huggingface.co/openai/gpt-oss-120b
- 論文・技術レポート等からの要点抽出