普及するAIへの道（17,000トークン/秒）

2026年2月20日原文(taalas.com)

概要

AIの普及 には高い遅延と コスト が障壁
TaalasはAIモデルを 専用シリコン 化し、 高速・低コスト化 を実現
記憶と計算の融合、 徹底した単純化 が中核技術
初製品 はLlama 3.1 8B搭載、従来比 10倍高速・20分の1コスト
今後の展開 として、より高性能なモデルとオープンな開発方針

AI普及の障壁とTaalasの挑戦

AIは特定領域 で既に 人間を凌駕 する性能
高遅延 と 膨大なコスト が普及の最大障壁
- 言語モデルの応答は 人間の思考速度に遠く及ばず
- コーディング支援などでは 数分の遅延 で作業効率が大幅低下
- AIエージェント用途 ではミリ秒単位の応答が必須
最新AIモデルの運用には 巨大なデータセンター と 高額な設備投資 が必要
- 数百キロワット消費、液冷、複雑なI/O、膨大な配線
- 都市規模 のデータセンターと衛星ネットワークが前提
歴史的には 巨大な初期プロトタイプ から 実用的な小型化 へ進化
- ENIACからトランジスタ、PC、スマートフォンへ進化
- 汎用計算機 は「 安価・高速・容易」で主流化
AIも同様の進化 が必要

Taalasの概要と技術的核心

Taalas は2.5年前創業、 AIモデルを専用シリコン化 するプラットフォームを開発
- 未知のモデルも 2ヶ月でハードウェア化 可能
Hardcore Models ：従来比で 10倍高速・10分の1コスト・10分の1消費電力
コア原則
- 徹底的な専門化
  - AI推論 は人類史上最重要計算ワークロード
  - モデルごとに最適な専用シリコン を設計
- 記憶と計算の融合
  - 従来は メモリと計算チップが分離、I/Oや冷却など複雑化
  - DRAM密度で記憶・計算を単一チップ化 し、性能・効率を大幅向上
- 根本的な単純化
  - メモリ・計算の境界撤廃 と モデル特化設計 でハードウェアスタックを再設計
  - HBM・3Dスタック・液冷・高速I/O不要
  - システム全体コストの桁違いの削減

初期製品と性能

世界最速・最安・省電力の推論プラットフォーム を実現
- Taalas HC1 ：Llama 3.1 8Bを ハードワイヤード 化
1ユーザーあたり17,000トークン/秒、従来比 約10倍高速
構築コストは20分の1、消費電力は10分の1
Llama 3.1 8B を採用した理由
- 小型・OSS でハード化が容易
- 柔軟性 も確保（ コンテキストウィンドウ調整、LoRAによるファインチューニング対応）
初代シリコン は3ビット・6ビット混在の独自量子化を採用し、一部品質劣化
第2世代シリコン は標準4ビット浮動小数点へ移行、品質・効率を両立

次世代モデルと展開

次モデル は 中規模推論LLM、春にラボ導入・サービス統合予定
その次はフロンティアLLM、第2世代シリコン（HC2）で冬に展開予定
- 更なる高密度・高速化
ベータサービス としてLlamaモデルを一般公開
- サブミリ秒推論、ほぼゼロコスト で新たなAIアプリケーションを促進
- 開発者向けにアクセス申請受付中

Taalasの組織と開発哲学

少数精鋭の長期協働チーム （20年以上の結束・外部パートナー連携）
新規メンバーは実力・理念共有・実績重視で厳選
本質重視・職人気質・厳格な運営 が特徴
24人・総額$30M で初製品を開発（調達額$200M超）
- 明確な目標と集中力 が大量資金・人数に勝ることを証明
今後もオープン開発、早期公開・迅速な反復を継続

結論と今後のビジョン

常識への問い直し と 未踏領域への挑戦 がTaalasの原動力
性能・効率・コストで桁違いの進化 を実現
従来とは根本的に異なる設計思想 でAIシステムを再定義
高遅延・高コストというAI普及の障壁を解消
即時・超低コストの知能を開発者の手に提供
今後も より高性能なモデルと新たなAI活用事例の創出 を目指す

Hackerたちの意見

チャットボット試してみたけど、15kトーク/secで大きなレスポンスが瞬時に返ってくるのは衝撃的だった。フロンティアモデルを一つお願い、地元のコーディングとホームAIのニーズに使いたいな。

└

読むのに少なくとも2分かかる整然としたテキストブロックが、ほんの一瞬で生成されるのは絶対に狂ってる。すごいことだね…

└

フェルミの逆説の解決策を思い出すな。異星文明からの信号を検出できないのは、彼らが違うクロックスピードで動いてるからだって。

編集: どうやらこれは10個のチップじゃなくて1個のチップみたい。8Bの16ビット量子化で4K以上のコンテキストだと思ってたけど、実際には1kコンテキストのllama 8B q3をエッチングしたみたい。これならチップサイズに合うね。8億のq3パラメータモデルには10個のチップが必要で、消費電力は2.4kW。TSMC N6のレチクルサイズのチップが10個。要するに、Nvidia H100 GPUの10倍の性能。モデルはシリコンチップにエッチングされてるから、設計・製造後にモデルを変更することはできない。ニッチなアプリケーションには面白い設計だね。非常に高い価値があって、小さなモデルの知能で済むタスク、驚異的な速度が必要で、電力要件のためにクラウドで動かすのがOK、さらにモデルがシリコンにエッチングされてるから何年も変更なしで使えるタスクって何だろう？

└

一番良い結果はカスタムビルドのモデルから来ると思う。8億パラメータの一般化モデルはすごく速く動くけど、特に何かに優れてるわけじゃない。でも、同じパラメータ数をメールの解析やRAG要約、他の専門的なタスクに特化させれば、十分すぎるくらい良い結果が出るし、驚異的な速度で動くこともできる。

└

あるいは、最近の知識を統合するためにもっとRAGや思考を動かすこともできると思う。そういうモデルは、世界の知識よりもエージェント的な検索に重点を置くんじゃないかな。

└

その数字はどこから来てるの？この設計でモデルをチップに分配できるってのは、すぐには分からないな。 > モデルはシリコンチップに刻まれてるから、チップが設計・製造された後はモデルを変更できないんだ。ここでの微妙なポイントは、そのプロセスで期待できる最速のターンアラウンドは約6ヶ月ってこと。将来的には役立つかもしれないけど、今はモデルの入れ替えが激しくて、みんな今週のモデルを使うように言ってるね。

└

CEO

└

すごく価値の高いタスクで、小さなモデルの知能だけで済む、すごいスピードが必要、電力要件のためにクラウドで動かしても大丈夫、しかもモデルがシリコンに刻まれてるから数年変わらないっていうのは、どんなタスク？ゲームのNPCとか？

これは汎用チップじゃなくて、高速・低遅延の推論に特化してる。けど、その目的にはNvidiaよりもずっと安くなる可能性がある。技術のまとめ: - 8Bの密な3ビット量子化で15kトーク/sec - 制限されたKVキャッシュ - 880mm²のダイ、TSMC 6nm、53Bトランジスタ - おそらく1チップあたり200W - 生産コストは20倍安い - 推論あたりのエネルギーは10分の1 - 最大コンテキストサイズ: フレキシブル - 同じハードウェアで春に中規模の思考モデルが登場予定 - 次のハードウェアはFP4の予定 - 12ヶ月以内にフロンティアLLMが計画されてるこれは全部彼らのウェブサイトからの情報で、私は関係者じゃない。創業者たちはAMDやNvidiaなどで25年のキャリアがあって、今までに2億ドルのVCを集めてる。非常に低遅延のアプリケーションには確かに面白いね。

└

もし本当なら、これはデータ抽出タスクに超役立ちそうだね。トークンあたり数セントの範囲で話してるかもしれない。

└

8Bモデルを動かすには、言ってたチップが10個必要だってことを忘れないで。しかも3ビット量子化だから、3GBのRAMが必要。もし8Bをネイティブの16ビット量子化で動かすなら、H100サイズのチップが60個必要になるよ。

Hacker Newsで議論の続きを見る

ハクソク