概要
OpenAIが初のオープンウェイトLLM「gpt-oss-120b」「gpt-oss-20b」を公開 ベンチマークでは優秀だが、実用面では課題あり MicrosoftのPhiシリーズ同様、合成データによる訓練の可能性 安全性重視のため、実際の用途では性能が限定的 今後半年で実用性が評価される見込み
OpenAIのgpt-ossモデル登場と評価
- OpenAIが初のオープンウェイト大規模言語モデル「 gpt-oss-120b」「 gpt-oss-20b」を公開
- 一部ベンチマークでは高い性能を発揮
- 「SimpleQA」など特定タスクでは予想外に低いスコア
- 技術的な完成度は高いが、 一般的知識 は豊富でも ポップカルチャー などの知識は不足
- 実際の利用では「 ベンチマークでは優秀だが現実世界では期待外れ」となる可能性
Phiシリーズと合成データ訓練
-
2024年、Microsoftの Sebastien Bubeck がPhiシリーズを開発
-
合成データや手作業で厳選した教材データのみで訓練
-
合成データは入手コストが高いが、 訓練データの完全なコントロール が可能
-
ベンチマークには強いが、実用面では期待外れという評価
-
合成データを使うことで、 テスト対策的な訓練 が容易
- ベンチマークに合わせたデータを生成しやすい
- 本来の多様な用途には弱い傾向
OpenAIとPhiモデルの関係
- 2024年末にSebastien Bubeckが OpenAIに移籍
- gpt-ossシリーズの訓練詳細は非公開
- 合成データ や厳選データで訓練された可能性が高いと推測
- OpenAIは 安全性 を重視し、Phiスタイルの訓練を選択した可能性
合成データ訓練の安全性と戦略
- オープンソースモデル公開には 安全性リスク が伴う
- 公開後は 細かな調整や修正が困難
- 合成データや教材データのみで訓練することで、 不適切な挙動を抑制
- 「私はそのリクエストには対応できません」的な応答を大量生成可能
- OpenAIは スキャンダル回避 と 中国製オープンモデルより高いベンチマークスコア を両立させる必要
- 主力はクローズドモデルであり、オープンモデルの実用性は重視しない戦略
gpt-ossモデルの位置付けと今後
- 実質的に「 Phi-5」「 Phi-5-mini」に近い性質
- 「オープンソース」ではなく「オープンウェイト」 (重みのみ公開、訓練データやコードは非公開)
- 今後半年で 実際の有用性 が評価される見込み
- 現時点での評価は「ベンチマークは優秀だが現実的なタスクでは限定的」