世界を動かす技術を、日本語で。

OpenAIの新しいオープンソースモデルは基本的にPhi-5です

概要

OpenAIが初のオープンウェイトLLM「gpt-oss-120b」「gpt-oss-20b」を公開 ベンチマークでは優秀だが、実用面では課題あり MicrosoftのPhiシリーズ同様、合成データによる訓練の可能性 安全性重視のため、実際の用途では性能が限定的 今後半年で実用性が評価される見込み

OpenAIのgpt-ossモデル登場と評価

  • OpenAIが初のオープンウェイト大規模言語モデル「 gpt-oss-120b」「 gpt-oss-20b」を公開
  • 一部ベンチマークでは高い性能を発揮
  • 「SimpleQA」など特定タスクでは予想外に低いスコア
  • 技術的な完成度は高いが、 一般的知識 は豊富でも ポップカルチャー などの知識は不足
  • 実際の利用では「 ベンチマークでは優秀だが現実世界では期待外れ」となる可能性

Phiシリーズと合成データ訓練

  • 2024年、Microsoftの Sebastien Bubeck がPhiシリーズを開発

  • 合成データや手作業で厳選した教材データのみで訓練

  • 合成データは入手コストが高いが、 訓練データの完全なコントロール が可能

  • ベンチマークには強いが、実用面では期待外れという評価

  • 合成データを使うことで、 テスト対策的な訓練 が容易

    • ベンチマークに合わせたデータを生成しやすい
    • 本来の多様な用途には弱い傾向

OpenAIとPhiモデルの関係

  • 2024年末にSebastien Bubeckが OpenAIに移籍
  • gpt-ossシリーズの訓練詳細は非公開
  • 合成データ や厳選データで訓練された可能性が高いと推測
  • OpenAIは 安全性 を重視し、Phiスタイルの訓練を選択した可能性

合成データ訓練の安全性と戦略

  • オープンソースモデル公開には 安全性リスク が伴う
  • 公開後は 細かな調整や修正が困難
  • 合成データや教材データのみで訓練することで、 不適切な挙動を抑制
  • 「私はそのリクエストには対応できません」的な応答を大量生成可能
  • OpenAIは スキャンダル回避中国製オープンモデルより高いベンチマークスコア を両立させる必要
  • 主力はクローズドモデルであり、オープンモデルの実用性は重視しない戦略

gpt-ossモデルの位置付けと今後

  • 実質的に「 Phi-5」「 Phi-5-mini」に近い性質
  • 「オープンソース」ではなく「オープンウェイト」 (重みのみ公開、訓練データやコードは非公開)
  • 今後半年で 実際の有用性 が評価される見込み
  • 現時点での評価は「ベンチマークは優秀だが現実的なタスクでは限定的」

Hackerたちの意見

合成データだけで訓練されたモデルでも、こんな出力をする可能性ってあるのかな? https://x.com/elder_plinius/status/1952958577867669892

定義上、モデルは訓練セットにない情報を「知る」ことはできないよね。外部の知識を問い合わせるツールを使わない限り。問題は、良いモデルに必要な訓練セットのサイズがすごく大きいから、ほとんどすべての既知の文書を含めないと良いモデルを作るのが難しいってこと。

理論的には可能だね。 https://x.com/OwainEvans_UK/status/1947689616016085210 合成データにエンコードされた隠れた情報がLSDやVXを作るための具体的な詳細を含む可能性は特に高くないけど、モデルのトレーナーがモデルに組み込みたくない情報が合成データに含まれている可能性はずっと高いよ。

合成データってどうやって作られるのか知ってる人いる?モデルを空の状態からランダムにサンプリングするのかな?それとも、何かフィルタリングがあったりするの?自動的にプロンプトを生成する方法があるのか、もしそうならどうやって?フィードバックメカニズムがあって、訓練中にモデルをテストして、うまくいってないテストに関連するデータを生成したりするのかな?

Phi-5についてはよく知らないけど、以前のPhiのバージョンは、実世界のデータで訓練された大きなモデルが書いたストーリーで訓練されてたよ。マイクロソフトだから、たぶんOpenAIのGPTシリーズのどれかを使ったんじゃないかな。

拒否サンプリングを使うのは一般的だよね。モデルからサンプルを取り出して、検証可能な答えや大きなモデルからの判断などの基準を満たさないサンプルは捨てるんだ。

家でPhi-4をうまく使ってるし、GPT-OSS 20Bバージョンをいくつかテストしてみたけど、今のところかなり感心してるよ。特に、他の同じかそれ以下のサイズのモデル、例えばDevstral 24B、Falcon 3 7B、Qwen2.5-coder 14B、Phi 4 14Bが全滅したSQLの質問があって、その質問にはほとんどの人間には明らかなキーポイントが含まれてるんだけど、今まで試したモデルはそれを拾えなかった。GPT-OSSはそれを拾って、合理的な仮定を立てたんだ。他のモデルと比べてコードの説明もずっと丁寧で、他のモデルが見落とす詳細も含まれてる。あとは、これを全部動かせるGPUがあればなぁ…

その質問を教えてくれる?それとも、意図的に訓練データから外そうとしてるの?

例えば、彼らは科学について広範な一般知識を持っているけど、ポップカルチャーについてはあまり知らない それはいい焦点だね。リリースされてから数日で変わる詳細を学ぶ必要はないよね?代わりに、モデルに良い一般知識を持たせて、ツールを使うのが得意にすれば、JSライブラリのAPIが変わったからといって、モデルをゼロから再訓練する必要がなくなる。必要なときに最新のAPIや噂を取りに行くモデルになるんだ。

そうだよね、AIがハリー・ポッターやポケモン、レディットのトロールに関する百科事典的な知識を身につけるのは、なんだか悲しい現実を反映してる気がする。

なんで何かが変わると思うの?モデルには、今まで持っていたテキストをほぼ全部与えるんだよ。2026年にカレンダーが変わったからって、「2025年のポップカルチャー」みたいなものは変わらない。1980年代のポップカルチャーがそのままだったのと同じように。

TwitterでGPT-OSSがカスタマイズできないとか、魂がないって文句言ってる人たちをたくさん見たけど、誰も何を達成しようとしてるのか言ってなかった。「小さな言語モデルを微調整する主な用途はエロいロールプレイで、需要がかなりある。」ああ。

ポルノはいつも最前線だよね。外部要因が少なく、シンプルなビジネスモデルで自己完結した使い方がよく理解されてる。しかも、ポルノの場合、メディア自体がコンテンツ以上に商品になってることが多い。80年代に家庭用メディアで見るのが売りだったし、1-900の電話回線で入手したり、インターネットでアクセスするのが実際の商品だったかも。早期のスマートフォン普及の一因にもなったかもしれない。成人向けコンテンツは、携帯デバイスでの消費が約80%で、インターネット全体では約60%だよ。プライベートで調整可能なマルチメディアのオンデマンドインタラクションがここでの商品だね。あと、これはユニークな提案でもある。禁止された性的行為のロールプレイは、被害者なしでできると言えるかも。いいフィクションの話があるよ…「AIと話してると思ってた」

それが何か問題なの?数千年前からのエロティックなテキストがあるし、基本的に書くこと自体と同じくらい古いよ。https://en.wikipedia.org/wiki/Istanbul_2461

あなたは分かってない!エロチャットボットサービスはどんどん検閲されてるし、CharacterAIに起こったことがずっと続いてる。供給が深刻に不足してるんだよ、本当に人々がGrokに頼るのがいいと思ってるの?スパイスは流れ続けなきゃ!!!

いい使い方が欲しい?特定のコードの問題点をモデルが提案するインタラクティブなワークフローを試してるんだ。ユーザーが選択肢の中から一つを選ぶと、モデルがすぐに修正を実行するって感じ。最大の問題は?モデルが提案する内容が完全に無法地帯ってこと。あるモデルは短い文を提案するけど、別のモデルは一度に大量の情報を吐き出す。GPT-OSSはどこでもテーブルを使うのが好きだし、Llamaは「memcpy()は見た目とは違うかもしれないし、期待通りに動かないかも」というループにハマることがある。その後、他の有名なライブラリ関数について似たような提案が続く。クリエイティブなプロンプトエンジニアリングとクロスバリデーションでなんとか動かせたけど、すぐに理解できる合理的な提案をするように微調整されたモデルがあれば、もっといいと思う。

私の使い方は、無駄な「これについては謝ります」とか、トークンを無駄にする余計な言葉を取り除こうとしてるんだ。GPTはいつもすぐにダラダラするからね。チャットインターフェースもできるだけ排除したい。多くのベンチマークはテキスト補完モデルの方が良いけど、彼らはそのひどいインターフェースをモデルに使わせ続けてる。微調整は、余計なゴミなしで欲しい出力形式を得るためにあるのに。彼らはトークンを無駄にするようにモデルを調整してる気がする。

エロティックなロールプレイではないけど、AIを使ったNetHackクローンを作る用途があるんだ。具体的には、ダンジョンのレイアウトやNPCのセリフを生成したり、NetHackが有名な細かい要素やインタラクションを埋めるために使う。これには魂が必要で、神話やファンタジーの知識もたくさん必要だけど、世界のシステムを扱うための道具の使い方も必要だよ。

ほとんどの小さな言語モデルがエロティックなロールプレイ用に微調整されてるって本当?

あなたの書いたことはちょっと曖昧だから、言い換えさせて。比較的小さな(誰に聞くかによるけど、150Bパラメータまでを指すことがある!)LLMのほとんどのファインチューニングは、検閲なしのロールプレイ目的のためだよね。

そうだね。Table 9: GPT-OSSモデルカードの幻覚評価から見ると、GPT-OSS-20b/120bの精度はそれぞれ0.067/0.168、幻覚率は0.914/0.782だ。一方で、o4-miniは精度0.234、幻覚率0.750。これらの数字は、GPT-OSSモデルが実世界の知識をほとんど持っていなくて、幻覚を起こしやすいことを示してる。実世界の知識が少ないのは、Phi-LLMシリーズの「特徴」で、これは「安全性」(大企業向け)や「検閲」(ユーザー向け)の要件によるものだよね。それに、Table 4: OpenAI o3とo4-miniのシステムカードの幻覚評価から見ると、o3/o4-miniの精度は0.49/0.20、幻覚率は0.51/0.79。要するに、o3とo4-miniの間にはかなりの実世界の知識のギャップがあって、o4-miniとGPT-OSSの間にも別の大きなギャップがある。さらに、GPT-OSSに見られる貧弱な実世界の知識は、Phi-LLMシリーズの「特徴」と一致しているんだ。

「小さな言語モデルのファインチューニングの主な用途は、エロティックなロールプレイのためで、需要もかなりある。ローカルモデルを運営している小さなオンラインコミュニティは、少なくとも50%が変態だよ。すごいね。」

まあね。最初の数十年、消費者向けインターネットトラフィックのほとんどはポルノだったんだよ。そんなに騒がないで、技術的な問題を解決するために人々がやってくれる無料の努力を活用すればいいじゃん。

合成データがgpt-ossのトレーニングに使われたって確認されてるの?プレスリリースではその点に触れてなかったし、他でも見なかった。見逃したのか、それともショーンがそう推測してるだけなの?

トレーニングデータもオープンソースもない。企業のPRに騙されるなよ。