概要
- 本記事は 大規模言語モデル(LLM)のサイズ の変遷と現状を、 事実ベース で解説。
- ベースモデル (純粋なテキスト継続エンジン)に焦点を当て、 リークや噂は含まない。
- 2019年から2025年までの主要モデルの パラメータ数や訓練データ量 を時系列で整理。
- MoE(Mixture of Experts)モデルの台頭 と技術的特徴に言及。
- 今後の課題や動向 についても簡潔にまとめる。
大規模言語モデルのサイズ変遷(2019〜2025年)
- GPT-2シリーズ(2019年)
- パラメータ数:137M, 380M, 812M, 1.61B
- 訓練データ:約40GB(約100億トークン)
- データセット:未公開WebText
- GPT-3(2020年)
- パラメータ数:175B
- 訓練データ:約4000億トークン(CommonCrawl, WebText2, Books1/2, Wikipedia)
- 数万台のA100 GPUによる数ヶ月の訓練
- GPT-3.5, GPT-4(2022, 2023年)
- 公式な詳細情報は未公開
- Llamaシリーズ
- Llama 7B, 13B, 33B, 65B(2023年)
- 65Bモデル:1.4兆トークンで事前学習
- Books3データセット利用(著作権問題で話題)
- Llama-3.1 405B(2024年)
- パラメータ数:405B(Dense Transformer)
- 訓練データ:合計3.67兆トークン
- 訓練データの詳細は非公開傾向
- 高品質なコード・数学データによるアニーリング
- Llama-4(2025年予定)
- 最大2TパラメータのMoEモデル(A288B 16E)
- 未公開、信頼性問題によるリリース不透明
- 小型モデル(maverick, scout)は大型モデルからの蒸留
- Llama 7B, 13B, 33B, 65B(2023年)
- MoEモデルの台頭
- Mixtral 8x7B(2023年12月)
- MoE構造により大規模モデルの普及を促進
- Mixtral-8x22B(2024年4月)
- 総パラメータ:141B、アクティブ:39B(MoEモデル)
- Deepseek V3 Base(2024年12月)
- パラメータ数:671B(MoE)、アクティブ:37B
- 訓練データ:14.8兆トークン
- ダウンロード可能な初のGPT-4級モデルとして注目
- Databricks DBRX(2024年3月)
- パラメータ数:132B、アクティブ:36B、訓練データ:12兆トークン
- 16エキスパートから4つを選択する細粒度MoE
- MiniMax-Text-01(2025年1月)
- パラメータ数:456B、アクティブ:45.9B
- 前世代モデルを報酬ラベラーとして活用
- Dots.llm1.base(2025年6月)
- パラメータ数:143B、アクティブ:14B、訓練データ:11.2兆トークン
- 128エキスパート中トップ6+共有2エキスパートを活用
- Hunyuan-A13B(2025年6月)
- パラメータ数:80B、アクティブ:13B、訓練データ:20兆トークン、256Kコンテキスト長
- 共有エキスパート常時活性、8非共有エキスパート同時活性
- ERNIE-4.5-VL-424B-A47B-Base-PT(2025年6月)
- パラメータ数:424B、アクティブ:47B
- 訓練データは「数兆トークン」と記載のみ
- Mixtral 8x7B(2023年12月)
ダウンロード可能な大規模モデルの歴史
- 2023年以前はGPT-3規模のモデルがダウンロード不可
- 最大でLlama 70B程度
- GPT-3生成テキストによる微調整(合成データ)に頼る傾向
- 405Bモデルの登場が転機
- MoEアーキテクチャの普及
- 中国を中心に大規模オープンモデルの登場
- 最新モデルは多言語・マルチモーダル対応が進行
- 新種データや合成データの活用増加
MoEモデルとDenseモデルの比較・課題
- MoE(Mixture of Experts)モデル
- 全パラメータのうち一部のみ活性化(Sparse)
- 少ないGPUで大規模モデル運用が可能
- Denseモデル(全パラメータ活用)との比較が難しい
- アニーリングや合成データ利用による純粋な継続エンジン性の低下
- アシスタント的な性格が強まる傾向
- 文化的バイアス(例:中国文化)の混入
- 新アーキテクチャ(RWKV, byte-latent, bitnet)や合成データ生成技術の模索
- 純粋なテキスト継続エンジンとしての本質的価値は未解明
- 自動ベンチマークの限界
- MoEの“知能”評価が困難
今後の展望と課題
- 現状は“AIアシスタント”型チャットボットの開発が主流
- より多様な用途やアプローチの模索が重要
- ベースモデルの“純粋性”や“知能”の定義・評価方法の再考が必要
- オープンモデルのさらなる拡充と透明性向上への期待