世界を動かす技術を、日本語で。

オープンウェイトLLMとクローズドソースLLMのギャップ

概要

  • Artificial Analysis Intelligence Index (AAII)は、LLMの総合能力を評価する代表的なベンチマーク
  • オープンウェイトとクローズドソースの 性能ギャップ を時系列で可視化
  • コーディング系ベンチマークでの急速な ギャップ縮小 が顕著
  • 他の多くのベンチマークでは ギャップがほぼ横ばい、平均5か月差
  • 単一指標だけで LLMの能力全体を判断する難しさ を示唆

人工分析インテリジェンス指数におけるオープン・クローズドフロンティアモデルの推移

  • AAII は、LLMの全体的な能力を評価するために設計された主要な指標
  • プロットは、 オープンウェイトLLMの性能フロンティアクローズドソースLLMのフロンティア との間にある性能ギャップを示す
  • ギャップの定義は、オープンウェイトLLMがある性能水準に到達した時点で、クローズドソースLLMがその水準に到達していたのがどれくらい前かを示す「月数」
  • 2024年夏ごろから ギャップが急速に縮小 し始め、直線的な推定では2026年12月3日に 0か月 へ到達する予測
  • ただし、この傾向は AAII単一ベンチマーク に基づくもの

18種類のベンチマークによる詳細分析

  • Artificial Analysis は、18種類の異なるベンチマークデータセットを公開
  • 各データセットごとに、同様のギャップ推移グラフを作成
  • 毎月、各データセットのギャップを 箱ひげ図 でプロットし、時系列で推移を可視化
  • 全データセットのギャップ平均値を算出し、 回帰直線 を描画
  • この平均ギャップは、 期間全体を通じて約5か月 でほぼ横ばい
  • コーディング系ベンチマーク では、15か月差から1~2か月差まで急激に縮小
  • その他のベンチマークでは、ギャップの縮小は緩やかまたは横ばい

LLM能力評価の難しさと今後の見通し

  • 単一ベンチマーク(例:AAII)だけでLLM能力全体を評価するのは 不完全
  • 指標の選び方次第で、「オープンソースモデルが年末に追いつく」とも「常に5か月遅れ」とも予測できる
  • 特定分野(コーディング等)での急速な進歩が全体像を歪める可能性
  • 今後も 多角的な評価指標 が必要
  • オープンソースLLMの「シンギュラリティ」は一概に予測できず、安易な楽観や悲観は禁物

Hackerたちの意見

記事がオープンソースモデルとオープンウェイトモデルを混同してるね。全然違うのに。本文では正しく使われてるけど、タイトルは誤解を招くよね。

誰も気にしてないよ。完全にオープンな認証済みのGMOフリーの草飼育データを使ったモデルとか、アペルトゥスやオルモとか、いろいろあるけど、誰も興味ない。要するに、みんなが使うのは、ローカルで動かせて、改造して再リリースできるモデルのことを指してる。あとは無駄なセマンティクスだよ。誰もモデルを「再現」できないしね。

「利用可能なウェイト」を中立的な用語として推してたけど、諦めた。誰も気にしてないし、トレーニングについて真実を語る人なんていないよ。実質的で成長する自由が、ゼロの自由に勝るね。

個人的には、オープンウェイトモデルの未来における最大の問題は、今のところオープンウェイトモデルが一部の民間団体(例えば、DeepSeek)の慈善活動の結果であることだと思う。いつでもその支援が止まる可能性がある。何か「コミュニティ所有のハードウェア」ができるまでは、オープンウェイトモデルは常に中止されるリスクがあるよ。

これはただの賢いビジネス判断だよ。彼らのモデルが高価なプライベートモデルと競争して市場シェアを獲得できるようにしてるだけ。慈善活動なんてないよ。

そうだけど、オープンモデルの最大の利点は、決して奪われることがないってことだよ。つまり、どんな能力に達しても(もう他のモデルが出ないとしても)、それは永遠に残る。APIベースのモデルは、プロバイダーが気が向いたらいつでもモデルを廃止できるから、そうは言えないよね(例えば、gpt5-miniはすぐに消えるし、もっと高価な5.4-miniに置き換わる、グーグルも同様)。モデルをリリースするインセンティブを持つ企業は常にいるし、Nvdaなんかはこのモデルを使って直接利益を得てるから、ネモトロンラインを続ける動機があるよ。オープンな最先端からもそれほど離れてないしね。グーグルは小さいモデルをリリースし続けるだろうし、ブラウザ関連で使うから、漏れるのも分かってる。だから、小さいモデルをリリースして開発者市場シェアを得るのはウィンウィンだよ。中国の研究所もモデルをリリースし続けるインセンティブがあるし、政府の支援も受けるだろうね(国同士の商業戦争、万歳)。

モデルのトレーニング用にSETI@Homeみたいなのが必要だね。

これ、逆じゃない?Fableへのアクセスは取り消せるけど、オープンウェイトモデルを元に戻すのは無理じゃないかな。

そうは思わないな。これは慈善事業じゃなくて、彼らも何かを得てるんだよ。ラボ同士が共有モデルから学んでるし、経済的にも意味があると思う。推測だけど、サブスクリプションの限度をフル活用するのは、運営者にとってサブスクリプション収入以上のコストがかかるんじゃないかな。だからAnthropicが中国のデータ収集について騒いでるんだと思う。重みを公開することで、その負担から解放されるから、競争相手はサブスクリプションサービスを叩かなくても、モデルをダウンロードして分析して一日中動かせるんだよ。最大のモデルについては、自分で運用する意味がないし、主要なプレイヤーでない限りね。ハードウェアをレンタルするのは、サブスクリプションの何万ドルよりも馬鹿げたほど高いし、ハードウェアを買うのも数十万ドルかかるからね。

もっと大きな問題は、ますます増える資本要件だと思う。これが閉じたウェイトの企業にも影響を与えて、フロンティアから離れていくかもしれない。例えば、GoogleやMetaはギリギリで持ちこたえてる感じ。Googleにとってはフロンティアに留まるのがちょっと生死に関わる問題だけど、それでもギリギリだよね。競争相手がほとんど消えていくまで、キャピタル支出を指数関数的に増やし続ける以外の方法で、これらのモデルを改善し続ける方法を見つけられたらいいなと思う。

何らかの「コミュニティ所有のハードウェア」ができるまで ハードウェアはすでに手頃な価格でレンタルできる状態だよ。コミュニティの資金が必要だね。人々がローカルのGPUリグに使ってるお金の一部をトレーニングやテストなどにプールしてくれたらいいのに。大きな問題は、オープンソースと同じで、あまりにも分散しすぎてること。競争力のあるグラウンドアップのコミュニティLLMを作るには、何千万ドルも必要だよ。でも、誰が選ぶの?私の意見では、唯一のチャンスは、より専門的で小規模なLLMだと思う。それでもトレーニングには何百万ドルもかかるし、LLMは数ヶ月しか競争力がないことを忘れないで。

分散型のトレーニング機能があればいいのに… Folding@homeみたいな感じで、LLM用のやつ。

Hacker Newsで議論の続きを見る