OpenAIの新しいオープンソースモデルは基本的にPhi-5です

2025年8月8日原文(seangoedecke.com)

概要

OpenAIが初のオープンウェイトLLM「gpt-oss-120b」「gpt-oss-20b」を公開ベンチマークでは優秀だが、実用面では課題あり MicrosoftのPhiシリーズ同様、合成データによる訓練の可能性安全性重視のため、実際の用途では性能が限定的今後半年で実用性が評価される見込み

OpenAIのgpt-ossモデル登場と評価

OpenAIが初のオープンウェイト大規模言語モデル「 gpt-oss-120b」「 gpt-oss-20b」を公開
一部ベンチマークでは高い性能を発揮
「SimpleQA」など特定タスクでは予想外に低いスコア
技術的な完成度は高いが、 一般的知識 は豊富でも ポップカルチャー などの知識は不足
実際の利用では「 ベンチマークでは優秀だが現実世界では期待外れ」となる可能性

Phiシリーズと合成データ訓練

2024年、Microsoftの Sebastien Bubeck がPhiシリーズを開発
合成データや手作業で厳選した教材データのみで訓練
合成データは入手コストが高いが、 訓練データの完全なコントロール が可能
ベンチマークには強いが、実用面では期待外れという評価
合成データを使うことで、 テスト対策的な訓練 が容易
- ベンチマークに合わせたデータを生成しやすい
- 本来の多様な用途には弱い傾向

OpenAIとPhiモデルの関係

2024年末にSebastien Bubeckが OpenAIに移籍
gpt-ossシリーズの訓練詳細は非公開
合成データ や厳選データで訓練された可能性が高いと推測
OpenAIは 安全性 を重視し、Phiスタイルの訓練を選択した可能性

合成データ訓練の安全性と戦略

オープンソースモデル公開には 安全性リスク が伴う
公開後は 細かな調整や修正が困難
合成データや教材データのみで訓練することで、 不適切な挙動を抑制
「私はそのリクエストには対応できません」的な応答を大量生成可能
OpenAIは スキャンダル回避 と 中国製オープンモデルより高いベンチマークスコア を両立させる必要
主力はクローズドモデルであり、オープンモデルの実用性は重視しない戦略

gpt-ossモデルの位置付けと今後

実質的に「 Phi-5」「 Phi-5-mini」に近い性質
「オープンソース」ではなく「オープンウェイト」 （重みのみ公開、訓練データやコードは非公開）
今後半年で 実際の有用性 が評価される見込み
現時点での評価は「ベンチマークは優秀だが現実的なタスクでは限定的」

Hackerたちの意見

合成データだけで訓練されたモデルでも、こんな出力をする可能性ってあるのかな？ https://x.com/elder_plinius/status/1952958577867669892

└

定義上、モデルは訓練セットにない情報を「知る」ことはできないよね。外部の知識を問い合わせるツールを使わない限り。問題は、良いモデルに必要な訓練セットのサイズがすごく大きいから、ほとんどすべての既知の文書を含めないと良いモデルを作るのが難しいってこと。

└

理論的には可能だね。 https://x.com/OwainEvans_UK/status/1947689616016085210 合成データにエンコードされた隠れた情報がLSDやVXを作るための具体的な詳細を含む可能性は特に高くないけど、モデルのトレーナーがモデルに組み込みたくない情報が合成データに含まれている可能性はずっと高いよ。

合成データってどうやって作られるのか知ってる人いる？モデルを空の状態からランダムにサンプリングするのかな？それとも、何かフィルタリングがあったりするの？自動的にプロンプトを生成する方法があるのか、もしそうならどうやって？フィードバックメカニズムがあって、訓練中にモデルをテストして、うまくいってないテストに関連するデータを生成したりするのかな？

└

Phi-5についてはよく知らないけど、以前のPhiのバージョンは、実世界のデータで訓練された大きなモデルが書いたストーリーで訓練されてたよ。マイクロソフトだから、たぶんOpenAIのGPTシリーズのどれかを使ったんじゃないかな。

└

拒否サンプリングを使うのは一般的だよね。モデルからサンプルを取り出して、検証可能な答えや大きなモデルからの判断などの基準を満たさないサンプルは捨てるんだ。

家でPhi-4をうまく使ってるし、GPT-OSS 20Bバージョンをいくつかテストしてみたけど、今のところかなり感心してるよ。特に、他の同じかそれ以下のサイズのモデル、例えばDevstral 24B、Falcon 3 7B、Qwen2.5-coder 14B、Phi 4 14Bが全滅したSQLの質問があって、その質問にはほとんどの人間には明らかなキーポイントが含まれてるんだけど、今まで試したモデルはそれを拾えなかった。GPT-OSSはそれを拾って、合理的な仮定を立てたんだ。他のモデルと比べてコードの説明もずっと丁寧で、他のモデルが見落とす詳細も含まれてる。あとは、これを全部動かせるGPUがあればなぁ…

└

その質問を教えてくれる？それとも、意図的に訓練データから外そうとしてるの？

例えば、彼らは科学について広範な一般知識を持っているけど、ポップカルチャーについてはあまり知らないそれはいい焦点だね。リリースされてから数日で変わる詳細を学ぶ必要はないよね？代わりに、モデルに良い一般知識を持たせて、ツールを使うのが得意にすれば、JSライブラリのAPIが変わったからといって、モデルをゼロから再訓練する必要がなくなる。必要なときに最新のAPIや噂を取りに行くモデルになるんだ。

└

そうだよね、AIがハリー・ポッターやポケモン、レディットのトロールに関する百科事典的な知識を身につけるのは、なんだか悲しい現実を反映してる気がする。

└

なんで何かが変わると思うの？モデルには、今まで持っていたテキストをほぼ全部与えるんだよ。2026年にカレンダーが変わったからって、「2025年のポップカルチャー」みたいなものは変わらない。1980年代のポップカルチャーがそのままだったのと同じように。

TwitterでGPT-OSSがカスタマイズできないとか、魂がないって文句言ってる人たちをたくさん見たけど、誰も何を達成しようとしてるのか言ってなかった。「小さな言語モデルを微調整する主な用途はエロいロールプレイで、需要がかなりある。」ああ。

Hacker Newsで議論の続きを見る

ハクソク