LLMアーキテクチャギャラリー

2026年3月16日原文(sebastianraschka.com)

概要

The Big LLM Architecture Comparison と A Dream of Spring for Open-Weight LLMs から主要なアーキテクチャ図とファクトシートをまとめたページ
最新の オープンウェイトLLM のアーキテクチャ比較に焦点
各モデルの主要な設計ポイントや関連技術を箇条書きで解説
問題発見時は Architecture Gallery issue tracker で報告可能
高解像度ポスター版も Zazzle で注文可能

LLMアーキテクチャギャラリー：2024-2026年の主要モデル比較

Llama stack ：Dense GQA with RoPE。OLMo 2との正規化・アテンション比較用リファレンス。パラメータ数8B、2024-04-18
- 特徴：Pre-normベースライン、同規模のOLMo 2より幅広
- 関連：クラシックMHA、正規化改良による学習安定性
DeepSeek V3 ：Dense MHA with QK-Norm。パラメータ数7B、2024-11-25
- 特徴：Residual内post-norm採用、通常のpre-normと異なる
- 関連：大規模オープンMoEモデルの先駆け
DeepSeek V3 MoE ：Sparse MoE MLA。総パラメータ671B（アクティブ37B）、2024-12-26
- 特徴：Dense prefix＋共有エキスパート、推論時の効率性重視
- 関連：推論最適化のためのMoE設計
DeepSeek Reasoning ：Sparse MoE MLA。671B/37B、2025-01-20
- 特徴：アーキテクチャはV3と同等、学習レシピが推論最適化型
Gemma 3 27B ：Dense GQA with QK-Norm＋5:1スライディング/グローバルアテンション、2025-03-11
- 特徴：27B規模、ローカルアテンション強化、多言語語彙
Mistral 24B ：Dense Standard GQA、2025-03-18
- 特徴：レイテンシ重視、KVキャッシュ縮小、Gemma 3より層数少
Meta MoE ：Sparse MoE GQA。400B/17B、2025-04-05
- 特徴：Dense/MoEブロック交互、大型エキスパート採用
Qwen3 MoE 235B ：Sparse MoE GQA with QK-Norm。235B/22B、2025-04-28
- 特徴：共有エキスパート排除、サービング効率最適化
Qwen3 Dense 32B ：Dense GQA with QK-Norm。32B、2025-04-28
- 特徴：Qwenリファレンススタック、QK-Norm＋8 KVヘッド
Qwen3 Dense 4B/8B ：Dense GQA with QK-Norm。4B/8B、2025-04-28
- 特徴：小型Denseスタック、151k語彙
NoPE実験モデル ：Dense GQA with periodic NoPE。3B、2025-06-19
- 特徴：4層ごとにRoPE省略、NoPEの効果検証
Moonshot 1T ：Sparse MoE MLA。1T/32B、2025-07-10
- 特徴：DeepSeek V3を拡張、エキスパート増加・MLAヘッド減少
Agent-oriented MoE ：Sparse MoE GQA with QK-Norm。355B/32B、2025-07-28
- 特徴：Dense3層→MoEルーティング、共有エキスパート維持
gpt-oss 120B/20B ：Sparse MoE GQA with sliding-window/global。120B/20B、2025-08-04
- 特徴：幅広・浅め設計、注意バイアス・sink機構
Qwen DeltaNet ：Sparse hybrid Attention。80B/3B、2025-09-09
- 特徴：DeltaNet＋Gated Attention、262kコンテキスト
MiniMax 230B ：Sparse MoE GQA with QK-Norm＋部分RoPE。230B/10B、2025-10-23
- 特徴：各層QK-Norm、MoEルーティング希薄
Kimi 48B ：Sparse hybrid Attention。48B/3B、2025-10-30
- 特徴：NoPE in MLA、チャネルワイズゲーティング
OLMo 3 32B ：Dense GQA with QK-Norm＋3:1スライディング/グローバル。32B、2025-11-20
- 特徴：post-norm、YaRNをグローバル層みに適用
Allen AI透明モデル ：Dense MHA with QK-Norm＋3:1スライディング/グローバル。7B、2025-11-20
- 特徴：post-norm、MHA維持
DeepSeek V4 ：Sparse MoE MLA with DeepSeek Sparse Attention。671B/37B、2025-12-01
- 特徴：効率化進化、ベースレイアウト維持
Mistral 673B ：Sparse MoE MLA。673B/41B、2025-12-02
- 特徴：DeepSeek V3近似、大型エキスパート、マルチモーダル
NVIDIA Nano ：Hybrid MoE Mostly Mamba-2＋GQA。30B/3B、2025-12-04
- 特徴：Mamba-2、MoEブロック交互、アテンション最小限
MoE 309B ：Sparse MoE 5:1スライディング/グローバル。309B/15B、2025-12-16
- 特徴：128トークンローカル、マルチトークン予測
GLM-4.5直前モデル ：Sparse MoE GQA with QK-Norm。355B/32B、2025-12-22
- 特徴：MLA/スパースアテンション前のベースライン
Arcee 400B ：Sparse MoE GQA with gated＋3:1スライディング/グローバル。400B/13B、2026-01-27
- 特徴：QK-Norm、RoPE＋NoPE、サンドイッチノーム、粗MoE
GLM-4.7 ：Sparse MoE MLA with DeepSeek Sparse Attention。744B/40B、2026-02-11
- 特徴：GLM-4.7より大型、エキスパート増・層数減
Nano Super 120B ：Hybrid MoE Mostly Mamba-2＋GQA。120B/12B、2026-03-11
- 特徴：潜在空間MoE・推論高速化
MTP-3 MoE ：Sparse MoE GQA with 3:1スライディング。196B/11B、2026-02-01
- 特徴：学習・推論ともMTP-3で高スループット
Llama 3.2派生3B ：Dense GQA、2026-02-10
- 特徴：入力埋め込みと出力層の非結合
Qwen3 230B Coder ：Sparse MoE GQA with QK-Norm。230B/10B、2026-02-12
- 特徴：クラシック構成、ハイブリッドアテンション非採用
Cohere 3.35B ：Dense GQA with 3:1スライディング。3.35B、2026-02-13
- 特徴：パラレルトランスフォーマーブロック、RoPE＋NoPE混合
Lightning Attention 1T ：Sparse hybrid Attention Lightning＋MLA。1T/63B、2026-02-15
- 特徴：7:1リニア/MLA比率、63Bアクティブ
Qwen Next 397B ：Sparse hybrid Attention 3:1 Gated DeltaNet＋Gated Attention。397B/17B、2026-02-16
- 特徴：Qwen3-Nextから本流へ、512エキスパート
Sarvam MLA 105B/30B ：Sparse MoE MLA/GQA with QK-Norm。105B/30B、2026-03-03
- 特徴：大語彙、インド言語対応、MLA＆GQA切替

問題報告・ポスター注文について

誤記・リンク切れ・図の誤り は Architecture Gallery issue tracker で報告
物理ポスター ：Zazzleで注文可（14570×12490ピクセル、56MB PNG、182MP）
- プレビューは低解像度だが、実際は高解像度
- 品質未検証のため注文時は要注意

まとめ

2024-2026年 の主要LLMアーキテクチャの進化・比較
MoE（Mixture of Experts） と Sparse Attention の普及・多様化
正規化・位置エンコーディング・アテンション設計 の多彩な工夫
効率・多言語・長文対応 など、用途別の最適化傾向
オープンウェイトLLM の最新トレンド把握に最適なリスト

ハクソク

LLMアーキテクチャギャラリー

概要

LLMアーキテクチャギャラリー：2024-2026年の主要モデル比較

問題報告・ポスター注文について

関連用語・技術

まとめ

Hackerたちの意見