大規模言語モデルはどれくらい大きいのか？

2025年7月2日原文(gist.github.com)

概要

本記事は 大規模言語モデル（LLM）のサイズ の変遷と現状を、 事実ベース で解説。
ベースモデル （純粋なテキスト継続エンジン）に焦点を当て、 リークや噂は含まない。
2019年から2025年までの主要モデルの パラメータ数や訓練データ量 を時系列で整理。
MoE（Mixture of Experts）モデルの台頭 と技術的特徴に言及。
今後の課題や動向 についても簡潔にまとめる。

大規模言語モデルのサイズ変遷（2019〜2025年）

GPT-2シリーズ（2019年）
- パラメータ数：137M, 380M, 812M, 1.61B
- 訓練データ：約40GB（約100億トークン）
- データセット：未公開WebText
GPT-3（2020年）
- パラメータ数：175B
- 訓練データ：約4000億トークン（CommonCrawl, WebText2, Books1/2, Wikipedia）
- 数万台のA100 GPUによる数ヶ月の訓練
GPT-3.5, GPT-4（2022, 2023年）
- 公式な詳細情報は未公開
Llamaシリーズ
- Llama 7B, 13B, 33B, 65B（2023年）
  - 65Bモデル：1.4兆トークンで事前学習
  - Books3データセット利用（著作権問題で話題）
- Llama-3.1 405B（2024年）
  - パラメータ数：405B（Dense Transformer）
  - 訓練データ：合計3.67兆トークン
  - 訓練データの詳細は非公開傾向
  - 高品質なコード・数学データによるアニーリング
- Llama-4（2025年予定）
  - 最大2TパラメータのMoEモデル（A288B 16E）
  - 未公開、信頼性問題によるリリース不透明
  - 小型モデル（maverick, scout）は大型モデルからの蒸留
MoEモデルの台頭
- Mixtral 8x7B（2023年12月）
  - MoE構造により大規模モデルの普及を促進
- Mixtral-8x22B（2024年4月）
  - 総パラメータ：141B、アクティブ：39B（MoEモデル）
- Deepseek V3 Base（2024年12月）
  - パラメータ数：671B（MoE）、アクティブ：37B
  - 訓練データ：14.8兆トークン
  - ダウンロード可能な初のGPT-4級モデルとして注目
- Databricks DBRX（2024年3月）
  - パラメータ数：132B、アクティブ：36B、訓練データ：12兆トークン
  - 16エキスパートから4つを選択する細粒度MoE
- MiniMax-Text-01（2025年1月）
  - パラメータ数：456B、アクティブ：45.9B
  - 前世代モデルを報酬ラベラーとして活用
- Dots.llm1.base（2025年6月）
  - パラメータ数：143B、アクティブ：14B、訓練データ：11.2兆トークン
  - 128エキスパート中トップ6＋共有2エキスパートを活用
- Hunyuan-A13B（2025年6月）
  - パラメータ数：80B、アクティブ：13B、訓練データ：20兆トークン、256Kコンテキスト長
  - 共有エキスパート常時活性、8非共有エキスパート同時活性
- ERNIE-4.5-VL-424B-A47B-Base-PT（2025年6月）
  - パラメータ数：424B、アクティブ：47B
  - 訓練データは「数兆トークン」と記載のみ

ダウンロード可能な大規模モデルの歴史

2023年以前はGPT-3規模のモデルがダウンロード不可
- 最大でLlama 70B程度
- GPT-3生成テキストによる微調整（合成データ）に頼る傾向
405Bモデルの登場が転機
- MoEアーキテクチャの普及
- 中国を中心に大規模オープンモデルの登場
最新モデルは多言語・マルチモーダル対応が進行
- 新種データや合成データの活用増加

MoEモデルとDenseモデルの比較・課題

MoE（Mixture of Experts）モデル
- 全パラメータのうち一部のみ活性化（Sparse）
- 少ないGPUで大規模モデル運用が可能
- Denseモデル（全パラメータ活用）との比較が難しい
アニーリングや合成データ利用による純粋な継続エンジン性の低下
- アシスタント的な性格が強まる傾向
文化的バイアス（例：中国文化）の混入
新アーキテクチャ（RWKV, byte-latent, bitnet）や合成データ生成技術の模索
- 純粋なテキスト継続エンジンとしての本質的価値は未解明
自動ベンチマークの限界
- MoEの“知能”評価が困難

今後の展望と課題

現状は“AIアシスタント”型チャットボットの開発が主流
より多様な用途やアプローチの模索が重要
ベースモデルの“純粋性”や“知能”の定義・評価方法の再考が必要
オープンモデルのさらなる拡充と透明性向上への期待

Hackerたちの意見

ディスクサイズとVRAMサイズでどれくらいの大きさなの？1.61Bって言われても、LLMの中身についてあんまり知らないからピンとこないんだよね。でも、これがコンピュータのハードウェアにどう影響するのか気になる。これを動かすにはどんなスペックが必要なの？今動かせるものは何で、どれくらいお金をかける必要があって、10年後には何が動かせるようになるか、ちょっと教えてほしいな。

└

1バイト/パラメータだと1.6GB（f8）、2バイト（f16）だと2.3GBになるけど、GPUのパラメータを読み込む以外にもスペースコストがあるんだ。だから、目安としてはパラメータ数の約4倍って感じ。だから、2Bなら2*4で8GBのVRAMが必要だね。

└

ほとんどのモデルは16ビットの重みで訓練されているんだ。だから、10億パラメータのモデルは2ギガバイトを占める。実際には、モデルは推論のために小さい重みに量子化できる。通常、16ビットから8ビットに変えるときの性能損失は非常に小さいから、10億パラメータのモデルは1ギガバイトになる。8ビットの量子化された重みでモデルを考えると、計算がすごく簡単になるのがいいね。20Bモデルは20Gのメモリが必要。シンプルだよね。もちろん、モデルはさらに量子化できるけど、その分推論の質が落ちる。やることによっては、5ビットの重みやそれ以下でも全然問題ないかも。低ビットの重みで訓練されたモデルが、量子化された大きなモデルよりも良い性能を発揮することもあるみたい。たとえば、4ビットの重みで訓練されたモデルは、16ビットで訓練された後に4ビットに量子化されたモデルよりも良いかもしれない。モデルを動かすとき、パフォーマンスのボトルネックはメモリ帯域幅なんだ。だから、LLMファンはできるだけVRAMが多いGPUを探してる。君のコンピュータには128GのRAMがあるかもしれないけど、GPUがそのメモリにアクセスするのは帯域幅に制約されてるから、CPUでモデルを動かした方がいいかも。CPUでモデルを動かすことはできるけど、計算がすごく並列だから、めちゃくちゃ遅くなる。今の高性能な消費者向けGPUは、最大24Gの専用VRAMを持ってる（Nvidia RTX 5090は32GのVRAMがあって、価格は約2万ドル）。GPUの専用VRAMは、約1Tb/sのメモリ帯域幅を持ってる。AppleのMシリーズのARMベースのCPUは512 Gb/sの帯域幅があって、消費者向けハードウェアで大きなLLMを動かすのに人気のある方法の一つ。AMDの新しい「Strix Halo」CPU+GPUチップは、最大128Gの統一メモリを持っていて、約256 Gb/sのメモリ帯域幅がある。Redditのr/LocalLLaMAは、消費者向けハードウェアで何をしているかを見るのにいい場所だよ。もちろん、彼らがやってることの中にはクレイジーなものもあるから、見たものをそのまま参考にしない方がいいよ。10年後のことは誰にもわからないけどね。今、TSMC、Samsung、Intelのトップシリコンファブは、ハイパースケーラーからのGPU需要に応えるために全力で働いてる（Microsoft Azure、AWS、Googleなど）。シリコンチップの製造は、伝統的にブームとバストのサイクルを追ってきた。でも、地政学的緊張、グローバルトレードの障壁、AI駆動の進歩、そして他のブラックスワンイベントがあるから、今後数年がどうなるかは誰にもわからない。

この文書のどれもAIによって書かれたわけではないと思う。こういうシナリオでは、記事にはプロンプトと生成モデルを含めるべきだよね。

└

その通りだね！AIの質がどんどん悪化してる。

└

著者は、こういう文での英語の二重否定が互いに打ち消し合うってことを知らないんじゃないかな。

└

これは著者の偶然の二重否定だと思った。自分で書いたって宣言しようとしてるみたい。非ネイティブスピーカーが書いた可能性があるサインがいくつかあるね。

└

それを修正しました。「この文書のどれもAIによって書かれたものではありません」と書くべきでした。エラーを見つけてくれてありがとう。

Deepseek v1は約670Bnで、物理的には約1.4TBだよ。今まで書かれた/エンコードされたすべてのデジタル書籍は数TBに圧縮される。公開されているウェブは約50TB。英語の電子テキストをすべてまとめたら、O(100TB)くらいになると思う。モデルサイズはその約1%くらいで、トレーニングのリターンが減少しているエリアに入ってる。つまり、>1%に行っても改善が見られない（gpt4.5と4oを比較してみて）。だから、計算コストは推論時間に移っていて、「推論」モデルが情報や能力をシステムに補完しているんだ。これ以上の価値をこのモデルクラスから引き出すには、指示の微調整を超えたドメイン特化の専門化が必要だと思う。高品質なオープンソースモデルのためには、1TBの推論時間VRAMを目指すのが合理的な中期目標だと思う。これは今の中小企業でも手が届く範囲だよ。約250bnパラメータだね。

└

今まで書かれた/エンコードされたすべてのデジタル書籍は数TBに圧縮される。公開されているウェブは約50TB。英語の電子テキストをすべてまとめたら、O(100TB)くらいになると思う。これらの数字はどこから来てるの？その計算方法を知りたいな。どこかで読んだことがあるけど、もうそのソースが見つからない。今世紀以前のすべての書かれたテキストは約50MBだったって。（ソースがないから、間違って引用してるかも）。

└

画像や動画を追加するだけで、これらの予測は「640KBで十分」という感じになってくるよね。その後は、ロボットに自分で世界を探索させて、さらにデータを集めさせると。真面目な話、画像やインタラクションデータを追加するのは、テキスト生成にもものすごく役立つと思う。

└

改善は見られなかった（gpt4.5と4oを比較）。参考までに、4.5と4oの間には大きな違いがあるよ。

Hacker Newsで議論の続きを見る

ハクソク