概要
- Taalas が開発したASICチップは、Llama 3.1 8Bモデルで 1秒間に17,000トークン の推論速度を実現
- GPUベースの推論システムより10倍安価・省電力・高速 を主張
- チップ上にモデルの重みを 物理的に埋め込む という設計
- 外部メモリ不要、一部オンチップSRAMのみ利用
- カスタムチップ製造の工夫 により開発期間短縮
Taalas ASICチップの概要と特徴
- Taalas は設立2.5年のスタートアップ企業
- 最初の製品として、 固定機能ASIC(特定用途向け集積回路) を開発
- Llama 3.1 8B(3/6ビット量子化) モデルに特化したチップ設計
- 1秒間に17,000トークン の推論速度を実現
- 所有コスト・消費電力・推論速度 でGPUより約10倍優れると主張
- モデルの重み(パラメータ)をチップ上に物理的に焼き付ける 設計
従来のGPUによるLLM推論の課題
- LLMは 複数層(例:Llama 3.1 8Bは32層) で構成
- 各層の重みは GPUのVRAM/HBM から都度読み出し
- 入力ベクトルが 各層ごとに重み行列と積和演算 を実施
- 中間結果(アクティベーション)もVRAMに保存 しながら処理
- 全層を通過するたびに大量のメモリアクセス が発生
- メモリ帯域幅の制約(Von Neumannボトルネック) によりレイテンシ・消費電力増大
Taalasチップの革新ポイント
- 全32層の重みを物理トランジスタとしてシリコン上に直接配置
- 入力信号が物理的配線を通じて連続的に各層を通過 するパイプライン構造
- 独自の「マジック乗算器」 で4ビットデータの乗算を1トランジスタで実現
- 外部DRAM/HBM非搭載、オンチップSRAMのみ利用
- SRAMはKVキャッシュやLoRAアダプタ保持に利用
- 消費電力・メモリ遅延の大幅削減
カスタムASIC製造の工夫
- 全モデル専用チップの製造は原則高コスト
- Taalasは 汎用的な論理ゲートグリッドベースのチップ設計 を採用
- 特定モデルへの適用は最上層2層/マスクのみカスタマイズ
- 完全な新規設計より短期間(2か月)で開発可能
- AIモデルの進化スピードに比べれば遅いが、カスタムチップ業界では迅速
今後への期待
- 個人PCや小規模サーバーでも高速LLM推論が可能となる可能性
- 量産化・コスト低減が進めばAI普及の大きな後押し
- GPU依存からの脱却を目指すハードウェア革命への期待