タラスはどのようにしてLLMをチップに「印刷」するのか？

2026年2月22日原文(anuragk.com)

概要

Taalas が開発したASICチップは、Llama 3.1 8Bモデルで 1秒間に17,000トークン の推論速度を実現
GPUベースの推論システムより10倍安価・省電力・高速 を主張
チップ上にモデルの重みを 物理的に埋め込む という設計
外部メモリ不要、一部オンチップSRAMのみ利用
カスタムチップ製造の工夫 により開発期間短縮

Taalas ASICチップの概要と特徴

Taalas は設立2.5年のスタートアップ企業
最初の製品として、 固定機能ASIC（特定用途向け集積回路） を開発
Llama 3.1 8B（3/6ビット量子化） モデルに特化したチップ設計
1秒間に17,000トークン の推論速度を実現
所有コスト・消費電力・推論速度 でGPUより約10倍優れると主張
モデルの重み（パラメータ）をチップ上に物理的に焼き付ける 設計

従来のGPUによるLLM推論の課題

LLMは 複数層（例：Llama 3.1 8Bは32層） で構成
各層の重みは GPUのVRAM/HBM から都度読み出し
入力ベクトルが 各層ごとに重み行列と積和演算 を実施
中間結果（アクティベーション）もVRAMに保存 しながら処理
全層を通過するたびに大量のメモリアクセス が発生
メモリ帯域幅の制約（Von Neumannボトルネック） によりレイテンシ・消費電力増大

Taalasチップの革新ポイント

全32層の重みを物理トランジスタとしてシリコン上に直接配置
入力信号が物理的配線を通じて連続的に各層を通過 するパイプライン構造
独自の「マジック乗算器」 で4ビットデータの乗算を1トランジスタで実現
外部DRAM/HBM非搭載、オンチップSRAMのみ利用
- SRAMはKVキャッシュやLoRAアダプタ保持に利用
消費電力・メモリ遅延の大幅削減

カスタムASIC製造の工夫

全モデル専用チップの製造は原則高コスト
Taalasは 汎用的な論理ゲートグリッドベースのチップ設計 を採用
特定モデルへの適用は最上層2層/マスクのみカスタマイズ
完全な新規設計より短期間（2か月）で開発可能
AIモデルの進化スピードに比べれば遅いが、カスタムチップ業界では迅速

今後への期待

個人PCや小規模サーバーでも高速LLM推論が可能となる可能性
量産化・コスト低減が進めばAI普及の大きな後押し
GPU依存からの脱却を目指すハードウェア革命への期待

Hackerたちの意見

これはすごく面白い未来になりそうだね。Gemma 5 Miniがハードウェア上でローカルに動く姿を想像できるし、特定のエンコーディングメカニズム（H.264やAV1など）をサポートするハードコーディングされた「AIコア」みたいなのもありそう。明らかにコストの問題はあるけど（でもTaalasが構造化ASICの時代を復活させようとしてるから、コストはそれほど低くはならないと思うけど）、なんで大手企業があまり注目してないのか気になるな。もちろん、これはモデルのトレーニングには役立たないけど、モデルがさらに進化すれば、完全にローカルで超高速かつ超効率的なプロセッサの中にこれが入るのは全然あり得ると思う。

└

それに、CerebrasやGroqみたいなプログラム可能なASICでも、GPUに対して何倍ものスピードアップを実現してるのに、市場はほとんど反応してないよね。

CD-ROMやゲームカートリッジ、印刷された本みたいなもので、一つのモデルしか持ってなくて書き換えもできない。コンピュータのスロットに物理的にチップを取り出して、違うモデルに交換するイメージだね。まるでNintendo DSみたいに。

└

そういうハードウェアを応援してるよ。オープンなモデルを促進するし、プライバシーもずっと良くなると思う。実際、未来のロボットがタスクに応じて異なるモデルを使えるようなスロットを持ってたら面白いなって考えてた。ハードウェアMoEみたいな感じで。

└

モデル用のカートリッジスロットは面白いアイデアだね。一つのチップがどんなモデルでも動かすんじゃなくて、一つのモデル、もしくはモデルのファミリーをチップごとに持つって感じで（たぶん）パフォーマンス/ワットがずっと良くなると思う。消費者向けに経済的に成り立つのか、それとも組み込み/エッジの領域に留まるのか、ちょっと気になるな。

└

それ、PCIeって呼んでもいいかもね。

└

そのスロットはUSB-Cって呼ばれてるよ。インファレンスASICがパワーバンクの形で登場して、ただ差し込んで使える姿が想像できるな。

└

まあ、電力使用量の問題があるけど、なんとかなるかも。直線的にスケールするとは思えないけど、家庭用なら170トークン/秒で2.5Wはクールだし、17トークン/秒で0.25Wなら最高だね。一方で、これはポジトロニックブレインへの一歩かもしれないね。（https://en.wikipedia.org/wiki/Positronic_brain）

└

これがまさに私が欲しかったもの！Macに接続するeGPUみたいな感じだね。デスクの下にトップクラスのモデルを動かせる大きなモデルやデバイスが置ける。すべてローカルで、完全にプライベート。

これがMoEアーキテクチャとどれくらい相性がいいのか気になるな。密なLLM、例えばllama-3.1-8Bみたいなモデルだと、実際の掛け算・加算ハードウェアの近くにすべての重みがあるとすごく利益が出るんだよね。MoEの場合は、むしろメモリのルックアップみたいな感じになる。MACと保存された重みの1:1のペアリングじゃなくて、大きなメモリブロックの隣に小さなMACブロックを置かなきゃいけなくなる。で、この不一致が大きくなると、マスクROMの代わりにメモリ用に最適化されたメモリプロセスを使うことで大きな利点が出てくるんだ。その時点で、またチップレットアプローチに戻ることになるね…。

└

比較のために、GoogleがTPUv4アーキテクチャでMoEアーキテクチャをどう扱ってるか書きたかったんだ。彼らはMEMSミラーを使った光回路スイッチを使って、高度に再構成可能で高帯域幅の3Dトーラストポロジーを作ってる。OCSファブリックは、4096チップを1つのポッドに接続できて、特定のMoEモデルの通信パターンに合わせてクラスタを動的に配線し直すことができるんだ。3Dトーラスは64チップのキューブをそれぞれ6つの隣接チップと接続してる。TPUv4には高帯域幅の非連続メモリアクセスを専門に扱う2つのSparseCoreも含まれてる。もちろん、これはデータセンター向けのシステムで、PC用のチップではないけど、そのスケールを伝えたかったんだ。*ed: SpareCubesをSparseCubesに修正

└

各エキスパートモデルがシリコンに刻まれていたら、すごいスピードブーストが得られるよね？ASICを印刷するのが一番の壁だと思う。

Hacker Newsで議論の続きを見る

ハクソク