概要
- The Big LLM Architecture Comparison と A Dream of Spring for Open-Weight LLMs から主要なアーキテクチャ図とファクトシートをまとめたページ
- 最新の オープンウェイトLLM のアーキテクチャ比較に焦点
- 各モデルの主要な設計ポイントや関連技術を箇条書きで解説
- 問題発見時は Architecture Gallery issue tracker で報告可能
- 高解像度ポスター版も Zazzle で注文可能
LLMアーキテクチャギャラリー:2024-2026年の主要モデル比較
-
Llama stack :Dense GQA with RoPE。OLMo 2との正規化・アテンション比較用リファレンス。パラメータ数8B、2024-04-18
- 特徴 :Pre-normベースライン、同規模のOLMo 2より幅広
- 関連 :クラシックMHA、正規化改良による学習安定性
-
DeepSeek V3 :Dense MHA with QK-Norm。パラメータ数7B、2024-11-25
- 特徴 :Residual内post-norm採用、通常のpre-normと異なる
- 関連 :大規模オープンMoEモデルの先駆け
-
DeepSeek V3 MoE :Sparse MoE MLA。総パラメータ671B(アクティブ37B)、2024-12-26
- 特徴 :Dense prefix+共有エキスパート、推論時の効率性重視
- 関連 :推論最適化のためのMoE設計
-
DeepSeek Reasoning :Sparse MoE MLA。671B/37B、2025-01-20
- 特徴 :アーキテクチャはV3と同等、学習レシピが推論最適化型
-
Gemma 3 27B :Dense GQA with QK-Norm+5:1スライディング/グローバルアテンション、2025-03-11
- 特徴 :27B規模、ローカルアテンション強化、多言語語彙
-
Mistral 24B :Dense Standard GQA、2025-03-18
- 特徴 :レイテンシ重視、KVキャッシュ縮小、Gemma 3より層数少
-
Meta MoE :Sparse MoE GQA。400B/17B、2025-04-05
- 特徴 :Dense/MoEブロック交互、大型エキスパート採用
-
Qwen3 MoE 235B :Sparse MoE GQA with QK-Norm。235B/22B、2025-04-28
- 特徴 :共有エキスパート排除、サービング効率最適化
-
Qwen3 Dense 32B :Dense GQA with QK-Norm。32B、2025-04-28
- 特徴 :Qwenリファレンススタック、QK-Norm+8 KVヘッド
-
Qwen3 Dense 4B/8B :Dense GQA with QK-Norm。4B/8B、2025-04-28
- 特徴 :小型Denseスタック、151k語彙
-
NoPE実験モデル :Dense GQA with periodic NoPE。3B、2025-06-19
- 特徴 :4層ごとにRoPE省略、NoPEの効果検証
-
Moonshot 1T :Sparse MoE MLA。1T/32B、2025-07-10
- 特徴 :DeepSeek V3を拡張、エキスパート増加・MLAヘッド減少
-
Agent-oriented MoE :Sparse MoE GQA with QK-Norm。355B/32B、2025-07-28
- 特徴 :Dense3層→MoEルーティング、共有エキスパート維持
-
gpt-oss 120B/20B :Sparse MoE GQA with sliding-window/global。120B/20B、2025-08-04
- 特徴 :幅広・浅め設計、注意バイアス・sink機構
-
Qwen DeltaNet :Sparse hybrid Attention。80B/3B、2025-09-09
- 特徴 :DeltaNet+Gated Attention、262kコンテキスト
-
MiniMax 230B :Sparse MoE GQA with QK-Norm+部分RoPE。230B/10B、2025-10-23
- 特徴 :各層QK-Norm、MoEルーティング希薄
-
Kimi 48B :Sparse hybrid Attention。48B/3B、2025-10-30
- 特徴 :NoPE in MLA、チャネルワイズゲーティング
-
OLMo 3 32B :Dense GQA with QK-Norm+3:1スライディング/グローバル。32B、2025-11-20
- 特徴 :post-norm、YaRNをグローバル層みに適用
-
Allen AI透明モデル :Dense MHA with QK-Norm+3:1スライディング/グローバル。7B、2025-11-20
- 特徴 :post-norm、MHA維持
-
DeepSeek V4 :Sparse MoE MLA with DeepSeek Sparse Attention。671B/37B、2025-12-01
- 特徴 :効率化進化、ベースレイアウト維持
-
Mistral 673B :Sparse MoE MLA。673B/41B、2025-12-02
- 特徴 :DeepSeek V3近似、大型エキスパート、マルチモーダル
-
NVIDIA Nano :Hybrid MoE Mostly Mamba-2+GQA。30B/3B、2025-12-04
- 特徴 :Mamba-2、MoEブロック交互、アテンション最小限
-
MoE 309B :Sparse MoE 5:1スライディング/グローバル。309B/15B、2025-12-16
- 特徴 :128トークンローカル、マルチトークン予測
-
GLM-4.5直前モデル :Sparse MoE GQA with QK-Norm。355B/32B、2025-12-22
- 特徴 :MLA/スパースアテンション前のベースライン
-
Arcee 400B :Sparse MoE GQA with gated+3:1スライディング/グローバル。400B/13B、2026-01-27
- 特徴 :QK-Norm、RoPE+NoPE、サンドイッチノーム、粗MoE
-
GLM-4.7 :Sparse MoE MLA with DeepSeek Sparse Attention。744B/40B、2026-02-11
- 特徴 :GLM-4.7より大型、エキスパート増・層数減
-
Nano Super 120B :Hybrid MoE Mostly Mamba-2+GQA。120B/12B、2026-03-11
- 特徴 :潜在空間MoE・推論高速化
-
MTP-3 MoE :Sparse MoE GQA with 3:1スライディング。196B/11B、2026-02-01
- 特徴 :学習・推論ともMTP-3で高スループット
-
Llama 3.2派生3B :Dense GQA、2026-02-10
- 特徴 :入力埋め込みと出力層の非結合
-
Qwen3 230B Coder :Sparse MoE GQA with QK-Norm。230B/10B、2026-02-12
- 特徴 :クラシック構成、ハイブリッドアテンション非採用
-
Cohere 3.35B :Dense GQA with 3:1スライディング。3.35B、2026-02-13
- 特徴 :パラレルトランスフォーマーブロック、RoPE+NoPE混合
-
Lightning Attention 1T :Sparse hybrid Attention Lightning+MLA。1T/63B、2026-02-15
- 特徴 :7:1リニア/MLA比率、63Bアクティブ
-
Qwen Next 397B :Sparse hybrid Attention 3:1 Gated DeltaNet+Gated Attention。397B/17B、2026-02-16
- 特徴 :Qwen3-Nextから本流へ、512エキスパート
-
Sarvam MLA 105B/30B :Sparse MoE MLA/GQA with QK-Norm。105B/30B、2026-03-03
- 特徴 :大語彙、インド言語対応、MLA&GQA切替
問題報告・ポスター注文について
- 誤記・リンク切れ・図の誤り は Architecture Gallery issue tracker で報告
- 物理ポスター :Zazzleで注文可(14570×12490ピクセル、56MB PNG、182MP)
- プレビューは低解像度だが、実際は高解像度
- 品質未検証のため注文時は要注意
関連用語・技術
- Dense Attention :全結合型アテンション
- Sparse MoE :エキスパート選択型の疎構造
- GQA/MHA/MLA :Grouped/Multi-Head/Multilayer Attention
- QK-Norm/NoPE/RoPE :各種正規化・位置エンコーディング手法
- DeltaNet/Lightning/Mamba-2 :先進的アテンション・混合アーキテクチャ
- YaRN/MTP/SwiGLU :学習安定化・高速化のための新規手法
まとめ
- 2024-2026年 の主要LLMアーキテクチャの進化・比較
- MoE(Mixture of Experts) と Sparse Attention の普及・多様化
- 正規化・位置エンコーディング・アテンション設計 の多彩な工夫
- 効率・多言語・長文対応 など、用途別の最適化傾向
- オープンウェイトLLM の最新トレンド把握に最適なリスト