世界を動かす技術を、日本語で。

タラスはどのようにしてLLMをチップに「印刷」するのか?

概要

  • Taalas が開発したASICチップは、Llama 3.1 8Bモデルで 1秒間に17,000トークン の推論速度を実現
  • GPUベースの推論システムより10倍安価・省電力・高速 を主張
  • チップ上にモデルの重みを 物理的に埋め込む という設計
  • 外部メモリ不要、一部オンチップSRAMのみ利用
  • カスタムチップ製造の工夫 により開発期間短縮

Taalas ASICチップの概要と特徴

  • Taalas は設立2.5年のスタートアップ企業
  • 最初の製品として、 固定機能ASIC(特定用途向け集積回路) を開発
  • Llama 3.1 8B(3/6ビット量子化) モデルに特化したチップ設計
  • 1秒間に17,000トークン の推論速度を実現
  • 所有コスト・消費電力・推論速度 でGPUより約10倍優れると主張
  • モデルの重み(パラメータ)をチップ上に物理的に焼き付ける 設計

従来のGPUによるLLM推論の課題

  • LLMは 複数層(例:Llama 3.1 8Bは32層) で構成
  • 各層の重みは GPUのVRAM/HBM から都度読み出し
  • 入力ベクトルが 各層ごとに重み行列と積和演算 を実施
  • 中間結果(アクティベーション)もVRAMに保存 しながら処理
  • 全層を通過するたびに大量のメモリアクセス が発生
  • メモリ帯域幅の制約(Von Neumannボトルネック) によりレイテンシ・消費電力増大

Taalasチップの革新ポイント

  • 全32層の重みを物理トランジスタとしてシリコン上に直接配置
  • 入力信号が物理的配線を通じて連続的に各層を通過 するパイプライン構造
  • 独自の「マジック乗算器」 で4ビットデータの乗算を1トランジスタで実現
  • 外部DRAM/HBM非搭載、オンチップSRAMのみ利用
    • SRAMはKVキャッシュやLoRAアダプタ保持に利用
  • 消費電力・メモリ遅延の大幅削減

カスタムASIC製造の工夫

  • 全モデル専用チップの製造は原則高コスト
  • Taalasは 汎用的な論理ゲートグリッドベースのチップ設計 を採用
  • 特定モデルへの適用は最上層2層/マスクのみカスタマイズ
  • 完全な新規設計より短期間(2か月)で開発可能
  • AIモデルの進化スピードに比べれば遅いが、カスタムチップ業界では迅速

今後への期待

  • 個人PCや小規模サーバーでも高速LLM推論が可能となる可能性
  • 量産化・コスト低減が進めばAI普及の大きな後押し
  • GPU依存からの脱却を目指すハードウェア革命への期待

Hackerたちの意見

これはすごく面白い未来になりそうだね。Gemma 5 Miniがハードウェア上でローカルに動く姿を想像できるし、特定のエンコーディングメカニズム(H.264やAV1など)をサポートするハードコーディングされた「AIコア」みたいなのもありそう。明らかにコストの問題はあるけど(でもTaalasが構造化ASICの時代を復活させようとしてるから、コストはそれほど低くはならないと思うけど)、なんで大手企業があまり注目してないのか気になるな。もちろん、これはモデルのトレーニングには役立たないけど、モデルがさらに進化すれば、完全にローカルで超高速かつ超効率的なプロセッサの中にこれが入るのは全然あり得ると思う。

それに、CerebrasやGroqみたいなプログラム可能なASICでも、GPUに対して何倍ものスピードアップを実現してるのに、市場はほとんど反応してないよね。

CD-ROMやゲームカートリッジ、印刷された本みたいなもので、一つのモデルしか持ってなくて書き換えもできない。コンピュータのスロットに物理的にチップを取り出して、違うモデルに交換するイメージだね。まるでNintendo DSみたいに。

そういうハードウェアを応援してるよ。オープンなモデルを促進するし、プライバシーもずっと良くなると思う。実際、未来のロボットがタスクに応じて異なるモデルを使えるようなスロットを持ってたら面白いなって考えてた。ハードウェアMoEみたいな感じで。

モデル用のカートリッジスロットは面白いアイデアだね。一つのチップがどんなモデルでも動かすんじゃなくて、一つのモデル、もしくはモデルのファミリーをチップごとに持つって感じで(たぶん)パフォーマンス/ワットがずっと良くなると思う。消費者向けに経済的に成り立つのか、それとも組み込み/エッジの領域に留まるのか、ちょっと気になるな。

それ、PCIeって呼んでもいいかもね。

そのスロットはUSB-Cって呼ばれてるよ。インファレンスASICがパワーバンクの形で登場して、ただ差し込んで使える姿が想像できるな。

まあ、電力使用量の問題があるけど、なんとかなるかも。直線的にスケールするとは思えないけど、家庭用なら170トークン/秒で2.5Wはクールだし、17トークン/秒で0.25Wなら最高だね。一方で、これはポジトロニックブレインへの一歩かもしれないね。(https://en.wikipedia.org/wiki/Positronic_brain)

これがまさに私が欲しかったもの!Macに接続するeGPUみたいな感じだね。デスクの下にトップクラスのモデルを動かせる大きなモデルやデバイスが置ける。すべてローカルで、完全にプライベート。

これがMoEアーキテクチャとどれくらい相性がいいのか気になるな。密なLLM、例えばllama-3.1-8Bみたいなモデルだと、実際の掛け算・加算ハードウェアの近くにすべての重みがあるとすごく利益が出るんだよね。MoEの場合は、むしろメモリのルックアップみたいな感じになる。MACと保存された重みの1:1のペアリングじゃなくて、大きなメモリブロックの隣に小さなMACブロックを置かなきゃいけなくなる。で、この不一致が大きくなると、マスクROMの代わりにメモリ用に最適化されたメモリプロセスを使うことで大きな利点が出てくるんだ。その時点で、またチップレットアプローチに戻ることになるね…。

比較のために、GoogleがTPUv4アーキテクチャでMoEアーキテクチャをどう扱ってるか書きたかったんだ。彼らはMEMSミラーを使った光回路スイッチを使って、高度に再構成可能で高帯域幅の3Dトーラストポロジーを作ってる。OCSファブリックは、4096チップを1つのポッドに接続できて、特定のMoEモデルの通信パターンに合わせてクラスタを動的に配線し直すことができるんだ。3Dトーラスは64チップのキューブをそれぞれ6つの隣接チップと接続してる。TPUv4には高帯域幅の非連続メモリアクセスを専門に扱う2つのSparseCoreも含まれてる。もちろん、これはデータセンター向けのシステムで、PC用のチップではないけど、そのスケールを伝えたかったんだ。*ed: SpareCubesをSparseCubesに修正

各エキスパートモデルがシリコンに刻まれていたら、すごいスピードブーストが得られるよね?ASICを印刷するのが一番の壁だと思う。

8Bの係数は53Bのトランジスタに詰め込まれていて、係数ごとに6.5トランジスタ使ってるんだ。2入力のNANDゲートは4トランジスタ使うし、レジスタもそれくらい。1つの係数は、2つの2入力NANDゲート未満で処理(掛け算して合計に加算)されるみたい。ブロック量子化を使ってると思うんだけど、係数の全ての(ソートされた)順列に対して可能なブロックを列挙して、各レイヤーには必要なブロックだけを配置する感じ。3ビットの係数とブロックサイズが4係数だと、330種類の異なるブロックが必要なんだ。Llama 3.1の行列は4096x4096で、16Mの係数がある。全ての係数の順列が揃っていると仮定すれば、330ブロックに圧縮できる。正しい入力と出力の順列のネットワークも考慮して。ブロックが一番面積を消費する部分だと仮定すると、ブロックごとのトランジスタ予算は約25万トランジスタ、つまり1ブロックあたり3万の2入力NANDゲートになる。25Kトランジスタ/ブロック * 330ブロック / 16Mトランジスタ = 係数ごとに約5トランジスタってことだね。かなり現実的に見える。FP4でもいけそうだし、これは3ビットの係数の隠れた姿なんだ。

PyTorchのmodel.toVHDL()メソッドが楽しみだな。

もし低コストでASICを印刷できるなら、モデルとの関わり方が変わるね。モデルはUSBプラグインデバイスとして利用できるようになるかも。20B未満の密なモデルが、個人用に必要な最高のアシスタントになるかもしれない。まるでグラフィックカードみたいだね。たくさんのベンダーが注目してくれるといいな。オープンウェイトモデルは今や豊富だからね。数千トークン/秒でも、低い購入コストと運用コストで、これはすごいことだよ。

フォームファクターの議論は面白いけど、実際の鍵はレイテンシだと思う。今のクラウド推論は、トークン生成を始める前に50〜200msのネットワークオーバーヘッドがある。PCIeに座っている専用のASICなら、マイクロ秒で最初のトークンを出せる。リアルタイムのビデオ生成や、100ms未満の応答ループが必要なインタラクティブエージェントのようなアプリケーションには、その違いがすべてだよ。推論あたりのコストはスケールでGPUクラスターより高くなるかもしれないけど、レイテンシプロファイルが現在のアーキテクチャでは実現できないユースケースを開くんだ。Taalasがスループットの数値を超えたレイテンシのベンチマークを発表したかどうか、気になるな。

レイテンシーや制御、帯域幅の信頼性と関連コストについてだけど、これは特化したハードウェアだけじゃなくて、一般的なローカルコンピューティングの需要でもあるんだ。特化したハードウェアはその中でも最も極端な形で、中央集権的にやった方が得られるタスクもあれば、ユーザーにできるだけ近い方がいいタスクもある。例えば、大規模なエリアでのピアの調整とか、低レイテンシーやプライバシー・制御重視のタスクなんかね。企業とユーザーの金銭的利益の対立で、どちらにも引き寄せられる部分がある。企業はできるだけ自分たちのコントロール下に置きたいし、特にお金にできる情報はね。でもほとんどのものはボリュームで、ユーザーは自分が払った製品の唯一のコントローラーでいたいと思ってる。1960年代にはすでにダムターミナルが普及してたし、「クラウド」や「エッジコンピューティング」、業界全体での統合と分離の時代があった。これが止まることはないよ。なぜなら、これらのモデルの固有の利点からお金が生まれるから。業界のリーダーたちですら、特化した企業にその利点を利用されるのを防げない。リーダーが統合すると、必然的に利益を最大化しようとするから、新しい選択肢の障壁が下がると思う。最終的には、市場は自分のコンピュータを自分のコントロール下に持ちたいという需要を決して止めないだろうし、これを取り除くことがこの需要を止める唯一の方法だと思う。一方で、ビジネスは決してユーザーのコンピューティングをコントロールしようとするのをやめないし、そのためにリアルな利点を提供するけど、結局は利益を追求するサイクルに入って、普通のユーザーは行ったり来たりすることになるんだ。

これがAppleのようなコンピュータメーカーにどう影響するのか気になる。3年以内にこういうチップがコンピュータに直接組み込まれるようになるのかな?今日のモデルに匹敵するほどの、超高速でローカルなオンデマンドパフォーマンスが得られるようになるのかな?

モジュラーメモリのアップデート用にモデルをdiffで補完することって可能なのかな?それともパフォーマンスに大きな影響が出ちゃう?

進歩が指数関数的なのに、3年間も古いモデルを使い続ける意味って何?

「1つのトランジスタで4ビットのデータを保存する」って部分について、もう少し詳しく教えてほしいな。これ、全然可能に思えないんだけど、納得させられたい。

彼らはこう言ってたよ: https://www.eetimes.com/taalas-specializes-to-extremes-for-e... ただ、完全にデジタルだって言ってるから、アナログの乗算器ではないみたい。

人々が驚いていることに驚いてる。もちろん、これは可能だし、未来でもあるよ。すでに証明されてるじゃん!なんでGPUがあると思ってるの?ソフトウェアからハードウェアに移行したからこそ、2Dや3Dのコンピュータグラフィックスが成り立ってるんだよ。このLLMもほぼ同じ数学だから、注目しているなら明らかで避けられないことだよ。

これはCPU/GPU対ASICの比較だと思う、CPU対GPUじゃなくて。彼らは常に共存してきたし、異なる目的に最適化されてる。ASICはコストや速度、電力の利点があるけど、設計はコンピュータプログラムを書くより難しいし、再プログラムもできないんだよね。

「私たちは、2Dや3Dコンピューターグラフィックスのために、ソフトウェアからハードウェア中心に移行したのと同じことをやったんだ。CPU上のソフトウェアから固定のGPUハードウェアに移行したけど、またGPU上のソフトウェアに戻った!だから、「もちろんこれが未来だ」なんて言えないよ。」

「Llama 3.1 8Bのチップを開発するのに2ヶ月かかったんだ。AIの世界では1週間が1年みたいなもんだから、めっちゃ遅いよ。でもカスタムチップの世界では、これは異常に速いことになってる。Llama 3.1は今の時点で2年分の進化だから、2年ごとにしか更新されないモデルを2ヶ月で変換するのはすごく早い。」