世界を動かす技術を、日本語で。

大規模言語モデルはどれくらい大きいのか?

概要

  • 本記事は 大規模言語モデル(LLM)のサイズ の変遷と現状を、 事実ベース で解説。
  • ベースモデル (純粋なテキスト継続エンジン)に焦点を当て、 リークや噂は含まない
  • 2019年から2025年までの主要モデルの パラメータ数や訓練データ量 を時系列で整理。
  • MoE(Mixture of Experts)モデルの台頭 と技術的特徴に言及。
  • 今後の課題や動向 についても簡潔にまとめる。

大規模言語モデルのサイズ変遷(2019〜2025年)

  • GPT-2シリーズ(2019年)
    • パラメータ数:137M, 380M, 812M, 1.61B
    • 訓練データ:約40GB(約100億トークン)
    • データセット:未公開WebText
  • GPT-3(2020年)
    • パラメータ数:175B
    • 訓練データ:約4000億トークン(CommonCrawl, WebText2, Books1/2, Wikipedia)
    • 数万台のA100 GPUによる数ヶ月の訓練
  • GPT-3.5, GPT-4(2022, 2023年)
    • 公式な詳細情報は未公開
  • Llamaシリーズ
    • Llama 7B, 13B, 33B, 65B(2023年)
      • 65Bモデル:1.4兆トークンで事前学習
      • Books3データセット利用(著作権問題で話題)
    • Llama-3.1 405B(2024年)
      • パラメータ数:405B(Dense Transformer)
      • 訓練データ:合計3.67兆トークン
      • 訓練データの詳細は非公開傾向
      • 高品質なコード・数学データによるアニーリング
    • Llama-4(2025年予定)
      • 最大2TパラメータのMoEモデル(A288B 16E)
      • 未公開、信頼性問題によるリリース不透明
      • 小型モデル(maverick, scout)は大型モデルからの蒸留
  • MoEモデルの台頭
    • Mixtral 8x7B(2023年12月)
      • MoE構造により大規模モデルの普及を促進
    • Mixtral-8x22B(2024年4月)
      • 総パラメータ:141B、アクティブ:39B(MoEモデル)
    • Deepseek V3 Base(2024年12月)
      • パラメータ数:671B(MoE)、アクティブ:37B
      • 訓練データ:14.8兆トークン
      • ダウンロード可能な初のGPT-4級モデルとして注目
    • Databricks DBRX(2024年3月)
      • パラメータ数:132B、アクティブ:36B、訓練データ:12兆トークン
      • 16エキスパートから4つを選択する細粒度MoE
    • MiniMax-Text-01(2025年1月)
      • パラメータ数:456B、アクティブ:45.9B
      • 前世代モデルを報酬ラベラーとして活用
    • Dots.llm1.base(2025年6月)
      • パラメータ数:143B、アクティブ:14B、訓練データ:11.2兆トークン
      • 128エキスパート中トップ6+共有2エキスパートを活用
    • Hunyuan-A13B(2025年6月)
      • パラメータ数:80B、アクティブ:13B、訓練データ:20兆トークン、256Kコンテキスト長
      • 共有エキスパート常時活性、8非共有エキスパート同時活性
    • ERNIE-4.5-VL-424B-A47B-Base-PT(2025年6月)
      • パラメータ数:424B、アクティブ:47B
      • 訓練データは「数兆トークン」と記載のみ

ダウンロード可能な大規模モデルの歴史

  • 2023年以前はGPT-3規模のモデルがダウンロード不可
    • 最大でLlama 70B程度
    • GPT-3生成テキストによる微調整(合成データ)に頼る傾向
  • 405Bモデルの登場が転機
    • MoEアーキテクチャの普及
    • 中国を中心に大規模オープンモデルの登場
  • 最新モデルは多言語・マルチモーダル対応が進行
    • 新種データや合成データの活用増加

MoEモデルとDenseモデルの比較・課題

  • MoE(Mixture of Experts)モデル
    • 全パラメータのうち一部のみ活性化(Sparse)
    • 少ないGPUで大規模モデル運用が可能
    • Denseモデル(全パラメータ活用)との比較が難しい
  • アニーリングや合成データ利用による純粋な継続エンジン性の低下
    • アシスタント的な性格が強まる傾向
  • 文化的バイアス(例:中国文化)の混入
  • 新アーキテクチャ(RWKV, byte-latent, bitnet)や合成データ生成技術の模索
    • 純粋なテキスト継続エンジンとしての本質的価値は未解明
  • 自動ベンチマークの限界
    • MoEの“知能”評価が困難

今後の展望と課題

  • 現状は“AIアシスタント”型チャットボットの開発が主流
  • より多様な用途やアプローチの模索が重要
  • ベースモデルの“純粋性”や“知能”の定義・評価方法の再考が必要
  • オープンモデルのさらなる拡充と透明性向上への期待

Hackerたちの意見

ディスクサイズとVRAMサイズでどれくらいの大きさなの?1.61Bって言われても、LLMの中身についてあんまり知らないからピンとこないんだよね。でも、これがコンピュータのハードウェアにどう影響するのか気になる。これを動かすにはどんなスペックが必要なの?今動かせるものは何で、どれくらいお金をかける必要があって、10年後には何が動かせるようになるか、ちょっと教えてほしいな。

1バイト/パラメータだと1.6GB(f8)、2バイト(f16)だと2.3GBになるけど、GPUのパラメータを読み込む以外にもスペースコストがあるんだ。だから、目安としてはパラメータ数の約4倍って感じ。だから、2Bなら2*4で8GBのVRAMが必要だね。

ほとんどのモデルは16ビットの重みで訓練されているんだ。だから、10億パラメータのモデルは2ギガバイトを占める。実際には、モデルは推論のために小さい重みに量子化できる。通常、16ビットから8ビットに変えるときの性能損失は非常に小さいから、10億パラメータのモデルは1ギガバイトになる。8ビットの量子化された重みでモデルを考えると、計算がすごく簡単になるのがいいね。20Bモデルは20Gのメモリが必要。シンプルだよね。もちろん、モデルはさらに量子化できるけど、その分推論の質が落ちる。やることによっては、5ビットの重みやそれ以下でも全然問題ないかも。低ビットの重みで訓練されたモデルが、量子化された大きなモデルよりも良い性能を発揮することもあるみたい。たとえば、4ビットの重みで訓練されたモデルは、16ビットで訓練された後に4ビットに量子化されたモデルよりも良いかもしれない。モデルを動かすとき、パフォーマンスのボトルネックはメモリ帯域幅なんだ。だから、LLMファンはできるだけVRAMが多いGPUを探してる。君のコンピュータには128GのRAMがあるかもしれないけど、GPUがそのメモリにアクセスするのは帯域幅に制約されてるから、CPUでモデルを動かした方がいいかも。CPUでモデルを動かすことはできるけど、計算がすごく並列だから、めちゃくちゃ遅くなる。今の高性能な消費者向けGPUは、最大24Gの専用VRAMを持ってる(Nvidia RTX 5090は32GのVRAMがあって、価格は約2万ドル)。GPUの専用VRAMは、約1Tb/sのメモリ帯域幅を持ってる。AppleのMシリーズのARMベースのCPUは512 Gb/sの帯域幅があって、消費者向けハードウェアで大きなLLMを動かすのに人気のある方法の一つ。AMDの新しい「Strix Halo」CPU+GPUチップは、最大128Gの統一メモリを持っていて、約256 Gb/sのメモリ帯域幅がある。Redditのr/LocalLLaMAは、消費者向けハードウェアで何をしているかを見るのにいい場所だよ。もちろん、彼らがやってることの中にはクレイジーなものもあるから、見たものをそのまま参考にしない方がいいよ。10年後のことは誰にもわからないけどね。今、TSMC、Samsung、Intelのトップシリコンファブは、ハイパースケーラーからのGPU需要に応えるために全力で働いてる(Microsoft Azure、AWS、Googleなど)。シリコンチップの製造は、伝統的にブームとバストのサイクルを追ってきた。でも、地政学的緊張、グローバルトレードの障壁、AI駆動の進歩、そして他のブラックスワンイベントがあるから、今後数年がどうなるかは誰にもわからない。

この文書のどれもAIによって書かれたわけではないと思う。こういうシナリオでは、記事にはプロンプトと生成モデルを含めるべきだよね。

その通りだね!AIの質がどんどん悪化してる。

著者は、こういう文での英語の二重否定が互いに打ち消し合うってことを知らないんじゃないかな。

これは著者の偶然の二重否定だと思った。自分で書いたって宣言しようとしてるみたい。非ネイティブスピーカーが書いた可能性があるサインがいくつかあるね。

それを修正しました。「この文書のどれもAIによって書かれたものではありません」と書くべきでした。エラーを見つけてくれてありがとう。

Deepseek v1は約670Bnで、物理的には約1.4TBだよ。今まで書かれた/エンコードされたすべてのデジタル書籍は数TBに圧縮される。公開されているウェブは約50TB。英語の電子テキストをすべてまとめたら、O(100TB)くらいになると思う。モデルサイズはその約1%くらいで、トレーニングのリターンが減少しているエリアに入ってる。つまり、>1%に行っても改善が見られない(gpt4.5と4oを比較してみて)。だから、計算コストは推論時間に移っていて、「推論」モデルが情報や能力をシステムに補完しているんだ。これ以上の価値をこのモデルクラスから引き出すには、指示の微調整を超えたドメイン特化の専門化が必要だと思う。高品質なオープンソースモデルのためには、1TBの推論時間VRAMを目指すのが合理的な中期目標だと思う。これは今の中小企業でも手が届く範囲だよ。約250bnパラメータだね。

今まで書かれた/エンコードされたすべてのデジタル書籍は数TBに圧縮される。公開されているウェブは約50TB。英語の電子テキストをすべてまとめたら、O(100TB)くらいになると思う。これらの数字はどこから来てるの?その計算方法を知りたいな。どこかで読んだことがあるけど、もうそのソースが見つからない。今世紀以前のすべての書かれたテキストは約50MBだったって。(ソースがないから、間違って引用してるかも)。

画像や動画を追加するだけで、これらの予測は「640KBで十分」という感じになってくるよね。その後は、ロボットに自分で世界を探索させて、さらにデータを集めさせると。真面目な話、画像やインタラクションデータを追加するのは、テキスト生成にもものすごく役立つと思う。

改善は見られなかった(gpt4.5と4oを比較)。参考までに、4.5と4oの間には大きな違いがあるよ。

公共のウェブは約50TB もしかしてEBって書きたかったの?

50TB 400ドル分のハードドライブにウェブ全体が収まるわけないよ。

あなたが言ってるのは、図書館のコングレスのことかな、約50TBって?インターネットは絶対にもっと大きいよ。

これはジャック・モリスの投稿に関連してるかな。https://blog.jxmo.io/p/there-are-no-new-ideas-in-ai-only 彼は、LLMの大きな飛躍が主に新しい訓練方法やアーキテクチャの変更から来たわけではなく、新しいアーキテクチャがより多くのデータを取り込む能力にあるって話してるんだ。

ちょっとした指摘だけど、ビッグO表記をそんな風に使わないでほしいな。固定のストレージ量はO(100TB)だよ。

アイロニックだよね:オープンソースコミュニティは何年もかけて、GPT-3(175B密度)に30B~70Bのモデル+RLHF+合成データで対抗しようとしてたけど、パフォーマンスの差はずっと続いてた。結局、サイズが本当に重要だったってことだね、少なくともベースモデルのレベルでは。真に巨大な密度(405B)や高活性のMoEモデル(DeepSeek V3、DBRXなど)がリリースされて初めて、GPT-4レベルの推論がクローズドラボの外で現れるようになった。

視覚的に見たいなら、年ごとの総パラメータのチャートがあるよ: https://app.charts.quesma.com/s/rmyk38

これは本当に素晴らしいね。作ってくれてありがとう。あなたへのクレジットを入れたチャートのスクリーンショットとリンクを、私の投稿のコメントに載せたよ。

このチャートが視覚的にとても明確に示しているのは、GPT-3がどれだけ大きな飛躍だったか、そして誰もそれに匹敵するものを作れるようになるまでに長いギャップがあったってことだと思う。

これは技術的なコメントというより、ただ驚いたって感じなんだけど、ダウンロードできるモデルにどれだけのデータが圧縮されているか、まだ信じられないよ。昨日、WiFiのない飛行機に乗ってたんだけど、Ollamaを使ってgemma3:12bをダウンロードしてたんだ。それをいじって子供たちに見せて、歴史の質問や最近のビデオゲームについての質問、動物の豆知識の質問を投げかけてみた。完璧ではなかったけど、8.1GBのファイルに埋め込まれている情報の幅広さはすごいね!ロスがあるのは確かだけど、人類の知識をこんなにコンパクトに圧縮する方法は本当に驚異的だよ。

言語モデルが圧縮にどれだけ強力かって、すごく興味深いよね。アシスタントモデルとして訓練すると、一般的なテキストよりもアシスタントのトランスクリプトを圧縮するのが得意になるんだ。UncheatableEvalっていう評価があって、これがすごく興味深くて尊敬してるんだけど、https://huggingface.co/spaces/Jellyfish042/UncheatableEval これは、さまざまな圧縮タスクを使ってLLMがどれだけ優れた言語モデルかをテストするものなんだ。このタスクは基本的に「チート」できないから、圧縮はゲームできないベンチマークなんだよ!

知能は圧縮だって言う人もいるよ。

90年代には「インターネット」をフロッピーディスクに入れるって冗談を言ってたけど、今はそれがちょっと可能になってるよね。

参考までに(Googleによると): > 2025年6月26日現在、英語のウィキペディアには700万以上の記事と6300万ページが含まれています。テキストコンテンツだけで約156GBだそうです。すべての改訂を含めると、データベースの総サイズは約26テラバイト(26,455GB)になります。

みんながチェックしたいかもしれない面白いプロジェクトがあるよ: https://kiwix.org/ オフラインで利用できるように、いろんなソースをダウンロードできるんだ。信頼できるインターネット接続がない地域には、事前にロードされたデバイスも提供しているよ。

情報理論や圧縮の観点から言語モデルを研究するのは小さな分野だけど、効率やスケーリングのためにはますます重要になってきてるよね。今日このことについて話し合ったんだ。 https://www.youtube.com/watch?v=SWIKyLSUBIc&t=2269s

ブリタニカ百科事典には約4,000万語があるんだって。[1] それは約0.25GBに相当する。1語あたり6バイトと仮定すると、8.1GBのファイルが大量の人間の情報をエンコードできるのも納得だよね。[1]: https://en.wikipedia.org/wiki/Encyclopædia_Britannica

8.1GBってすごい量だね!64,800,000,000ビットだよ。100ビットならなんとか想像できるけど、1,000ビットもまあいいかな。10,000ビットはちょっと無理だな。100万ビット?それはかなり多い感じがする。64百万ビットなんて、全然想像できない数字だよ。しかもこれは64百万の千倍だし!

機械学習モデルは圧縮データじゃなくて、圧縮アルゴリズムだってことを指摘するのは、いつまで経っても飽きないよ。

  1. "生テキスト継続エンジン" https://gist.github.com/rain-1/cf0419958250d15893d8873682492... 2. "超知能" https://en.m.wikipedia.org/wiki/Superintelligence "Metaは世界に超知能を提供するためのユニークな立場にある。" https://www.cnbc.com/2025/06/30/mark-zuckerberg-creating-met... 1と2の違いはあるの?うん、あるよ。一つは純粋に仮説的なものだから。

LLMがロスィ圧縮だっていう意見をみんなが繰り返すのはやめてほしいな。確かにそのメタファーには曖昧な部分があるけど、LLMにはもっと面白くて厳密な事実があるんだ。それは、LLMがロスレス圧縮アルゴリズムでもあるってこと。これが真実である理由は少なくとも二つあるよ。1. LLMを使って、任意のテキストをロスレスで圧縮できるんだ。そのコストはモデルにおけるそのテキストの対数尤度に近づく。送信者と受信者は両方ともLLMの重みを持っている必要がある。2. LLMとSGD(つまり、トレーニングコード)を使ってロスレス圧縮アルゴリズムとして利用できる。ここでの通信コストはトレーニング曲線の下の面積で、モデルの重みは記述長にはカウントされない!詳しくはJack Raeの「AGIのための圧縮」を見てね。

1についてだけど、古典的な圧縮も、送信者と受信者が同じ巨大な辞書にアクセスできれば、非常に効果的だよ。

なんか、GoogleのGemmaとGeminiシリーズのモデルが抜けてる気がする。T5シリーズのモデルに言及しないのも歴史的に見て変だと思う。彼らは転移学習の多くの概念を先駆けて、かなりの関心をこの分野に呼び起こしたから。

Gemmaモデルはこのリストに入れるには小さすぎるね。T5のことは歴史的に非常に重要だけど、彼らは11B以下だからあまり言うことがないんだ。でも、確かにとても興味深くて重要なモデルのセットだよ。

これは本当に良いまとめだね。ただ、ここには大きな言語モデルが最も興味深いものであるという暗黙の前提がある気がする。大手企業は少し静かだけど、外から見た印象では、OpenAIは行動から少し漏らしてしまった感じがする。彼らはさらに大きなモデルを作ったけど、期待外れだったみたいで、静かに中止したんだ。最も強力なフロンティア推論モデルは、実は公開されている最大のモデルよりも小さいかもしれないね。