ハクソク

世界を動かす技術を、日本語で。

LLMアーキテクチャの比較

2025年7月20日原文(magazine.sebastianraschka.com)

概要

本記事は、2025年の最新LLM（大規模言語モデル）アーキテクチャの進化に焦点を当てる内容
DeepSeek-V3/R1やOLMo 2など、代表的なオープンモデルの構造的特徴を解説
Multi-Head Latent Attention（MLA）やMixture-of-Experts（MoE）など、効率化技術を詳細に分析
ベンチマークやトレーニング手法ではなく、構造的な工夫や差異に注目
モデル間の違いとその背景にある技術的選択を比較・整理

2025年LLMアーキテクチャの進化と現状

GPT-2（2019）からDeepSeek-V3、Llama 4（2024-2025）まで、 基本構造は大きく変化していない 印象
Positional Embeddingの進化（Absolute → RoPE）、Multi-Head AttentionからGrouped-Query Attention（GQA）への移行
活性化関数もGELUから SwiGLU へ置き換えが進行
しかし、 根本的な構造変革 よりも、既存手法の洗練・最適化が中心
データセット・トレーニング手法・ハイパーパラメータの違いにより、 性能比較が困難 という課題

DeepSeek-V3/R1の構造的特徴

DeepSeek R1は2025年1月に発表され、 DeepSeek-V3アーキテクチャ を基盤とする推論モデル
DeepSeek-V3で導入された2つの注目技術
- Multi-Head Latent Attention（MLA）
- Mixture-of-Experts（MoE）

Grouped-Query Attention（GQA）の概要

GQAは、複数のAttention Headで Key/Valueを共有 し、計算量とメモリ消費を削減
例：Key/Valueグループが2つ、Attention Headが4つの場合、各2つのHeadが同じKey/Valueを使用
パラメータ数削減 ・推論時のKVキャッシュ効率化を実現
アブレーション研究では、 性能低下がほぼ見られない ことが確認されている

Multi-Head Latent Attention（MLA）の詳細

MLAはKey/Valueテンソルを 低次元に圧縮 してKVキャッシュに保存
推論時に元の次元へ 再投影 することで、追加の行列積を必要とするが、メモリ消費を大幅削減
DeepSeek-V2で初登場し、 GQAよりも高いモデリング性能 を示す
特徴：推論時の KVキャッシュ効率 と性能向上の両立

Mixture-of-Experts（MoE）層の特徴

通常のFeedForwardブロックを 複数の専門家（Expert）ブロック に置換
各トークンごとに 一部のExpertのみを選択的に活性化 （スパース化）
DeepSeek-V3では、MoEモジュールごとに 256のExpert、総パラメータ数は 6710億
- 推論時は 9つのExpert（37億パラメータ） のみ活性化
Shared Expert （常に活性化されるExpert）を採用し、全体性能向上を実現

DeepSeek-V3のまとめ

6710億パラメータ を持つ大規模モデルながら、MoEとMLAにより 推論効率に優れる
MLAはGQAよりも 実装が複雑 だが、より高い性能を発揮
Shared Expert の導入で、共通パターン学習の効率化

OLMo 2のアーキテクチャ的特徴

Allen Institute for AIによる 透明性重視のLLMシリーズ
- トレーニングデータやコードが公開 され、技術レポートも詳細
ベンチマーク上位ではないが、 LLM開発の手本 として高評価
OLMo 2は 従来型のMulti-Head Attention（MHA） を採用
主な設計上の特徴は 正規化層（Normalization）の配置
- RMSNorm の採用（LayerNormよりパラメータが少ない簡易版）
- RMSNormの 配置位置 が工夫されており、Post-Norm/Pre-Normのバリエーションを持つ
GPTやLlamaと同様、 Pre-Norm構造 を基本とするが、独自の調整あり

今後のLLMアーキテクチャ動向

根本的な構造変革 よりも、効率化・最適化技術の積み重ねが主流
MLAやMoEのような 計算効率・メモリ効率を両立する工夫 が今後も重要
透明性・再現性の高いモデル開発 が、研究・実用両面で求められる流れ
モデルサイズの拡大と 推論時の効率化 のバランスが今後の鍵

参考文献・出典

DeepSeek-V2/V3/R1論文
OLMo 2技術レポート
各モデルの公式アナウンスおよびアブレーション研究

Hackerたちの意見

これは、私みたいに最近追いついてない人にはいいおさらいだね。

これらのアーキテクチャはどれも革新的で、精度や速度の向上に寄与しているけど、事実情報を生成するという根本的な問題はまだ残ってるよね。リトリーバル拡張生成（RAG）やエージェント、その他の似たような手法がそれを軽減するのに役立ってる。今後のアーキテクチャがこれらの技術を置き換えるかどうか、楽しみだな。

└

私には、トランスフォーマーをテキスト予測のために訓練しているのが問題に見える。これだとモデルが限られた論理しか埋め込めないんだよね。ハルシネーションを止めるためには、モデルを訓練するための何か別のものを見つける必要があると思う。

└

RAGが概念的にはシンプルで実装も簡単なのに、なぜ基盤モデルがそれを基本機能に取り入れていないのか、まだ考えてる。これがないのはRAGやそのバリエーションについてのマイナスポイントに思える。もしどれかが機能していたら、モデルに直接組み込まれていて、後から追加する必要はなかったはずだよ。

└

モデルは、いつ外挿しないべきか、もっと情報が必要かを判断できないんだよね。どのルールが一般化できて、どれができないのか。もし他のいろんなことに対するメソッドがあるなら、doWhizBang()というメソッドが存在してもいいじゃん？子供の頃、母が料理が上手だって自慢したことがあったんだけど、それは他の動詞から考えても理にかなってた。でも、その言葉はすでに機械に取られていて、人間には「cooks」という言葉が与えられてるって知らなかったんだ。数十年後、子供に「お父さんはいい料理人だ」って言われるのを聞くのは嬉しかったな…。

正直、GPT-2（2019年）からどれだけ進化したか考えるとすごいよね。今はLLMの性能を比較するのがめちゃくちゃ難しくて、2週間ごとに新しいモデルがベンチマークを更新してる感じ。DeepSeekがここで言及されてて嬉しい。V3で導入された主要なアーキテクチャ技術が計算効率を改善して、他の多くのLLMと差別化されたのは、本当に革命的だったと思う。

└

本当に、このサイトのダウンボートはくだらないことだよね。特に、自分たちがHNの読者やコメント者の知的能力がどれだけ優れているかを自慢するのが大好きな人たちの間ではね。君のLLMの進展についての意見が理由もなくダウンボートされたから、アップボートしたよ。誰かが君の合理的な意見の中の何かが間違ってると思ってるの？だったら、具体的に指摘して、ちょっとした議論を始めればいいのに。YouTubeのコメント欄で12歳の子供みたいにデジタル反応するんじゃなくてさ。

この記事の図は素晴らしいね。初心者と専門家の間にいる人にはちょうどいい感じ。新しいモデルが並んでるのを見るのは最高だよ。

PT.2を見てみたいな。特に、o5、o3 Pro、o4や4.5、Gemini 2.5 Pro、Grok 4、Claude Opus 4などのトップクローズドソースフロンティアモデルで噂されていることも含めて。

これは私にとって本当に勉強になった。LLMアーキテクチャの具体的なことを、元の論文を読み解く難しさなしに学ぶには、ちょうどいい抽象度だった。

違いを詳しく説明してくれてありがとう。すごく勉強になったし、読みやすかったよ。