概要
- 本記事は、2025年の最新LLM(大規模言語モデル)アーキテクチャの進化に焦点を当てる内容
- DeepSeek-V3/R1やOLMo 2など、代表的なオープンモデルの構造的特徴を解説
- Multi-Head Latent Attention(MLA)やMixture-of-Experts(MoE)など、効率化技術を詳細に分析
- ベンチマークやトレーニング手法ではなく、構造的な工夫や差異に注目
- モデル間の違いとその背景にある技術的選択を比較・整理
2025年LLMアーキテクチャの進化と現状
- GPT-2(2019)からDeepSeek-V3、Llama 4(2024-2025)まで、 基本構造は大きく変化していない 印象
- Positional Embeddingの進化(Absolute → RoPE)、Multi-Head AttentionからGrouped-Query Attention(GQA)への移行
- 活性化関数もGELUから SwiGLU へ置き換えが進行
- しかし、 根本的な構造変革 よりも、既存手法の洗練・最適化が中心
- データセット・トレーニング手法・ハイパーパラメータの違いにより、 性能比較が困難 という課題
DeepSeek-V3/R1の構造的特徴
- DeepSeek R1は2025年1月に発表され、 DeepSeek-V3アーキテクチャ を基盤とする推論モデル
- DeepSeek-V3で導入された2つの注目技術
- Multi-Head Latent Attention(MLA)
- Mixture-of-Experts(MoE)
Grouped-Query Attention(GQA)の概要
- GQAは、複数のAttention Headで Key/Valueを共有 し、計算量とメモリ消費を削減
- 例:Key/Valueグループが2つ、Attention Headが4つの場合、各2つのHeadが同じKey/Valueを使用
- パラメータ数削減 ・推論時のKVキャッシュ効率化を実現
- アブレーション研究では、 性能低下がほぼ見られない ことが確認されている
Multi-Head Latent Attention(MLA)の詳細
- MLAはKey/Valueテンソルを 低次元に圧縮 してKVキャッシュに保存
- 推論時に元の次元へ 再投影 することで、追加の行列積を必要とするが、メモリ消費を大幅削減
- DeepSeek-V2で初登場し、 GQAよりも高いモデリング性能 を示す
- 特徴:推論時の KVキャッシュ効率 と性能向上の両立
Mixture-of-Experts(MoE)層の特徴
- 通常のFeedForwardブロックを 複数の専門家(Expert)ブロック に置換
- 各トークンごとに 一部のExpertのみを選択的に活性化 (スパース化)
- DeepSeek-V3では、MoEモジュールごとに 256のExpert、総パラメータ数は 6710億
- 推論時は 9つのExpert(37億パラメータ) のみ活性化
- Shared Expert (常に活性化されるExpert)を採用し、全体性能向上を実現
DeepSeek-V3のまとめ
- 6710億パラメータ を持つ大規模モデルながら、MoEとMLAにより 推論効率に優れる
- MLAはGQAよりも 実装が複雑 だが、より高い性能を発揮
- Shared Expert の導入で、共通パターン学習の効率化
OLMo 2のアーキテクチャ的特徴
- Allen Institute for AIによる 透明性重視のLLMシリーズ
- トレーニングデータやコードが公開 され、技術レポートも詳細
- ベンチマーク上位ではないが、 LLM開発の手本 として高評価
- OLMo 2は 従来型のMulti-Head Attention(MHA) を採用
- 主な設計上の特徴は 正規化層(Normalization)の配置
- RMSNorm の採用(LayerNormよりパラメータが少ない簡易版)
- RMSNormの 配置位置 が工夫されており、Post-Norm/Pre-Normのバリエーションを持つ
- GPTやLlamaと同様、 Pre-Norm構造 を基本とするが、独自の調整あり
今後のLLMアーキテクチャ動向
- 根本的な構造変革 よりも、効率化・最適化技術の積み重ねが主流
- MLAやMoEのような 計算効率・メモリ効率を両立する工夫 が今後も重要
- 透明性・再現性の高いモデル開発 が、研究・実用両面で求められる流れ
- モデルサイズの拡大と 推論時の効率化 のバランスが今後の鍵
参考文献・出典
- DeepSeek-V2/V3/R1論文
- OLMo 2技術レポート
- 各モデルの公式アナウンスおよびアブレーション研究