世界を動かす技術を、日本語で。

普及するAIへの道(17,000トークン/秒)

概要

  • AIの普及 には高い 遅延コスト が障壁
  • TaalasはAIモデルを 専用シリコン 化し、 高速・低コスト化 を実現
  • 記憶と計算の融合徹底した単純化 が中核技術
  • 初製品 はLlama 3.1 8B搭載、従来比 10倍高速・20分の1コスト
  • 今後の展開 として、より高性能なモデルとオープンな開発方針

AI普及の障壁とTaalasの挑戦

  • AIは特定領域 で既に 人間を凌駕 する性能
  • 高遅延膨大なコスト が普及の最大障壁
    • 言語モデルの応答は 人間の思考速度に遠く及ばず
    • コーディング支援などでは 数分の遅延 で作業効率が大幅低下
    • AIエージェント用途 ではミリ秒単位の応答が必須
  • 最新AIモデルの運用には 巨大なデータセンター高額な設備投資 が必要
    • 数百キロワット消費、液冷、複雑なI/O、膨大な配線
    • 都市規模 のデータセンターと衛星ネットワークが前提
  • 歴史的には 巨大な初期プロトタイプ から 実用的な小型化 へ進化
    • ENIACからトランジスタ、PC、スマートフォンへ進化
    • 汎用計算機 は「 安価・高速・容易」で主流化
  • AIも同様の進化 が必要

Taalasの概要と技術的核心

  • Taalas は2.5年前創業、 AIモデルを専用シリコン化 するプラットフォームを開発
    • 未知のモデルも 2ヶ月でハードウェア化 可能
  • Hardcore Models :従来比で 10倍高速・10分の1コスト・10分の1消費電力
  • コア原則
    • 徹底的な専門化
      • AI推論 は人類史上最重要計算ワークロード
      • モデルごとに最適な専用シリコン を設計
    • 記憶と計算の融合
      • 従来は メモリと計算チップが分離、I/Oや冷却など複雑化
      • DRAM密度で記憶・計算を単一チップ化 し、性能・効率を大幅向上
    • 根本的な単純化
      • メモリ・計算の境界撤廃モデル特化設計 でハードウェアスタックを再設計
      • HBM・3Dスタック・液冷・高速I/O不要
      • システム全体コストの桁違いの削減

初期製品と性能

  • 世界最速・最安・省電力の推論プラットフォーム を実現
    • Taalas HC1 :Llama 3.1 8Bを ハードワイヤード
  • 1ユーザーあたり17,000トークン/秒、従来比 約10倍高速
  • 構築コストは20分の1、消費電力は10分の1
  • Llama 3.1 8B を採用した理由
    • 小型・OSS でハード化が容易
    • 柔軟性 も確保( コンテキストウィンドウ調整、LoRAによるファインチューニング対応)
  • 初代シリコン は3ビット・6ビット混在の独自量子化を採用し、一部品質劣化
  • 第2世代シリコン は標準4ビット浮動小数点へ移行、品質・効率を両立

次世代モデルと展開

  • 次モデル中規模推論LLM、春にラボ導入・サービス統合予定
  • その次はフロンティアLLM、第2世代シリコン(HC2)で冬に展開予定
    • 更なる高密度・高速化
  • ベータサービス としてLlamaモデルを一般公開
    • サブミリ秒推論、ほぼゼロコスト で新たなAIアプリケーションを促進
    • 開発者向けにアクセス申請受付中

Taalasの組織と開発哲学

  • 少数精鋭の長期協働チーム (20年以上の結束・外部パートナー連携)
  • 新規メンバーは実力・理念共有・実績重視で厳選
  • 本質重視・職人気質・厳格な運営 が特徴
  • 24人・総額$30M で初製品を開発(調達額$200M超)
    • 明確な目標と集中力 が大量資金・人数に勝ることを証明
  • 今後もオープン開発、早期公開・迅速な反復を継続

結論と今後のビジョン

  • 常識への問い直し未踏領域への挑戦 がTaalasの原動力
  • 性能・効率・コストで桁違いの進化 を実現
  • 従来とは根本的に異なる設計思想 でAIシステムを再定義
  • 高遅延・高コストというAI普及の障壁を解消
  • 即時・超低コストの知能を開発者の手に提供
  • 今後も より高性能なモデルと新たなAI活用事例の創出 を目指す

Hackerたちの意見

チャットボット試してみたけど、15kトーク/secで大きなレスポンスが瞬時に返ってくるのは衝撃的だった。フロンティアモデルを一つお願い、地元のコーディングとホームAIのニーズに使いたいな。

読むのに少なくとも2分かかる整然としたテキストブロックが、ほんの一瞬で生成されるのは絶対に狂ってる。すごいことだね…

フェルミの逆説の解決策を思い出すな。異星文明からの信号を検出できないのは、彼らが違うクロックスピードで動いてるからだって。

編集: どうやらこれは10個のチップじゃなくて1個のチップみたい。8Bの16ビット量子化で4K以上のコンテキストだと思ってたけど、実際には1kコンテキストのllama 8B q3をエッチングしたみたい。これならチップサイズに合うね。8億のq3パラメータモデルには10個のチップが必要で、消費電力は2.4kW。TSMC N6のレチクルサイズのチップが10個。要するに、Nvidia H100 GPUの10倍の性能。モデルはシリコンチップにエッチングされてるから、設計・製造後にモデルを変更することはできない。ニッチなアプリケーションには面白い設計だね。非常に高い価値があって、小さなモデルの知能で済むタスク、驚異的な速度が必要で、電力要件のためにクラウドで動かすのがOK、さらにモデルがシリコンにエッチングされてるから何年も変更なしで使えるタスクって何だろう?

一番良い結果はカスタムビルドのモデルから来ると思う。8億パラメータの一般化モデルはすごく速く動くけど、特に何かに優れてるわけじゃない。でも、同じパラメータ数をメールの解析やRAG要約、他の専門的なタスクに特化させれば、十分すぎるくらい良い結果が出るし、驚異的な速度で動くこともできる。

あるいは、最近の知識を統合するためにもっとRAGや思考を動かすこともできると思う。そういうモデルは、世界の知識よりもエージェント的な検索に重点を置くんじゃないかな。

その数字はどこから来てるの?この設計でモデルをチップに分配できるってのは、すぐには分からないな。 > モデルはシリコンチップに刻まれてるから、チップが設計・製造された後はモデルを変更できないんだ。ここでの微妙なポイントは、そのプロセスで期待できる最速のターンアラウンドは約6ヶ月ってこと。将来的には役立つかもしれないけど、今はモデルの入れ替えが激しくて、みんな今週のモデルを使うように言ってるね。

CEO

すごく価値の高いタスクで、小さなモデルの知能だけで済む、すごいスピードが必要、電力要件のためにクラウドで動かしても大丈夫、しかもモデルがシリコンに刻まれてるから数年変わらないっていうのは、どんなタスク?ゲームのNPCとか?

これは汎用チップじゃなくて、高速・低遅延の推論に特化してる。けど、その目的にはNvidiaよりもずっと安くなる可能性がある。技術のまとめ: - 8Bの密な3ビット量子化で15kトーク/sec - 制限されたKVキャッシュ - 880mm²のダイ、TSMC 6nm、53Bトランジスタ - おそらく1チップあたり200W - 生産コストは20倍安い - 推論あたりのエネルギーは10分の1 - 最大コンテキストサイズ: フレキシブル - 同じハードウェアで春に中規模の思考モデルが登場予定 - 次のハードウェアはFP4の予定 - 12ヶ月以内にフロンティアLLMが計画されてる これは全部彼らのウェブサイトからの情報で、私は関係者じゃない。創業者たちはAMDやNvidiaなどで25年のキャリアがあって、今までに2億ドルのVCを集めてる。非常に低遅延のアプリケーションには確かに面白いね。

もし本当なら、これはデータ抽出タスクに超役立ちそうだね。トークンあたり数セントの範囲で話してるかもしれない。

8Bモデルを動かすには、言ってたチップが10個必要だってことを忘れないで。しかも3ビット量子化だから、3GBのRAMが必要。もし8Bをネイティブの16ビット量子化で動かすなら、H100サイズのチップが60個必要になるよ。

ほんとに賢いロボットに向かってるのかもね。どんな異なるモデルのチップが作れるのか、興味深いわ。

低遅延の推論は大きな電力の無駄遣いだよ。ASICを作るなら、すごく遅いけど高スループットの推論のためにすべきだね。デバイスの電圧をできるだけ下げて、サブスレッショルドモードや複数のVt、ボディバイアスを使ってさらに電力を節約し、漏れ損失を最小限に抑えるべき。でも、面積や距離を減らすために細かいノードで作業を続けることも大事。合理的な目標は、遅延が増えても、1回の操作あたりのエネルギー消費を最小限に抑えることだね。

この数学は役立つね。下のコメントでバカにしてる人が多いけど、私もいくつか反応があるよ。1) 16kトークン/秒は本当に驚くほど速い。10倍の要素が新しい科学や新しい製品カテゴリーになるっていう古い言い伝えがあるけど、これは私の中では新しい製品カテゴリーだと思う。音声エージェントアプリケーションやリアルタイムループ、リアルタイム動画生成などにすごく役立つだろうね。2) https://nvidia.github.io/TensorRT-LLM/blogs/H200launch.html では、H200がLlama 2の12b fb8で12kトークン/秒を出してる。これらのアーキテクチャを考えると、たぶん100以上のバッチ処理で、最初のトークンまでの時間はほぼ確実にTaalasより遅いだろうね。たぶんかなり遅いと思う。Taalasはミリ秒単位だから。3) ジェンセンはパレート曲線のグラフを持っていて、特定のエネルギーと特定のチップアーキテクチャに対して、スループットと遅延のトレードオフをするポイントを選ぶって言ってる。私の計算では、これらはおそらく曲線をシフトさせないと思う。6nmプロセスと4nmプロセスはおそらく30-40%大きくて、もっと電力を消費するだろうし。数字を見て、fp8モデル(遅い)、小さなジオメトリ(30%速くて低電力)に外挿して、Taalasの16kトークン/秒とH200の12kトークン/秒を比較すると、これらのチップは同じボールパークの曲線にいると思う。ただ、H200はこの曲線の部分には到達できないと思うから、ちょっと興味深いね。実際、もしH200のデータセンターがすでにモデルを動かしてたとしても、推測デコーディングをするためにこれらをたくさん買うだろうね。これは彼らにとって素晴らしいユースケースだし、推測デコーディングは最初のNトークンをソートするために小さな蒸留や量子化に依存してる。大きなモデルと小さなモデルが分岐したときに大きなモデルで推論するんだ。要するに、これらは売れると思う。たとえ6nmプロセスでも、最初にやらせたいのはフロンティアモデルの推測デコーディングだね。私が本当に懐疑的なのは、2ヶ月のターンアラウンド。最先端のジオメトリを任意の2ヶ月スケジュールで回すのは…野心的だね。希望的観測とも言えるかも。別の言葉も使えるね。彼らが成功することを願ってる!これらのチップのv3が、いくつかの基本的なAPIリクエストを処理することになると思うと、すごく楽しみだよ。

20ドルのサイコロで、ゲームボーイ風のカートリッジをいろんなモデル用に売れるかもね。

伝統的な非合理的な投資家の熱狂を見逃しちゃダメだよ、今それがたくさんあるから。正しいPR戦略があれば、彼らはチューリップバブルみたいになれるかも。

チャットボットの反応速度は、ChatGPTや他のシミュレートされた速いタイピングに慣れてると、驚くほど速いよ。でも、Llama 3.1 8BモデルのTaalasは、予測通りに間違った答えや幻覚、チャットボットとしての信頼性の低さを引き起こすね。小さなモデルで高スループットなソリューションには、どんな遅延に敏感なアプリケーションが適してるのかな?ロボティクス、ドローン、産業オートメーションにはこの種の専門化が必要だと思うけど、他には何がある?

エージェントパイプラインでのルーティングも別の使い方だね。「ユーザーのプロンプトAはドキュメントタイプAに合ってる?」って感じで。合ってれば続行、合ってなければエスカレーション。そんな感じ。

要約とかどうかな?精度が心配だけど、小さいモデルでも結構うまくいくよね。

高品質な言語理解に頼ったリアルタイムAPIルーティングやオーケストレーションシステムを構築できるよ。ほぼ瞬時の応答が必要な例としては、1. 意図に基づくAPIゲートウェイ:自然言語のクエリをリアルタイムで構造化されたAPIコールに変換する(例:「最後の注文をキャンセルして、元の支払い方法に返金して」→ 認証、注文検索、キャンセル、返金APIのチェーン)。2. もちろん、リアルタイムの音声チャット…映画で見るような感じ。3. セキュリティと詐欺のトリアージシステム:ハードコードされた正規表現なしでログを解析し、リアルタイムでアラートやユーザーの詳細レポートを発行し、どの自動ワークフローをトリガーするかを決定する。4. 自然言語クエリによって駆動される高度にインタラクティブな「もしも」シナリオ。これで自然言語理解の上にデータベースレベルの速度が得られるんだ。

小さいモデルの出力品質が、何度も試すことでどれだけ向上するか気になるな。20個の回答を生成して、「この回答をランク付けして」ってプロンプトでフィードバックするのもいいかも。あるいはMCTSみたいなことをするのも。

すごい、彼らのチャットアプリのデモ!!!初めて、答えを間違って貼り付けたかと思った。ほんと一瞬だったよ!!

え…何これ…

1秒間に16,000トークン出たよ、あはは。

何も得られない、何にも返信がない。

うーん、すぐにハマっちゃったな。「ファイルを添付」って機能がうまくいかなくて、「添付見える?」って聞いたら、最初のメッセージに返事が来たんだよね。

投資家の皆さん、OpenAIから引き上げて、全財産をChatJimmyに移す時が来たよ。

確かにすごく速いのは同意だけど、試した簡単なクエリでもかなり不正確な答えが返ってきたよ。それも納得できるけど、要は「考える」時間をどれだけ与えるかのトレードオフだよね。でも、速さが正確さを犠牲にするほどなら、魅力があるかどうかは微妙だな。

コメントには否定的な意見が多いけど、フロンティアモデル以外にも使い道はたくさんあるよ。証拠は、llama 3.1のオープンルーターのアクティビティグラフにあるよ。10億トークンが毎週22%の平均で成長してる。狭いドメインの応答を求める時、groqを使うことが多いんだけど、こういう小さいモデルは素晴らしいし、重いモデルは必要ないことが多い。応答のレイテンシを下げることで、標準のウェブページ読み込み時にもLLM支援の処理が使えるようになるんだ。特にこれが初めての披露なら、すごく感心してる。

その通り。身近な使い道の一つは、構造化されたコンテンツの抽出や、ウェブページデータのMarkdownへの変換だね。前はgroq(gpt-oss20bモデル)を使ってたけど、スケールでやるときはそれでも遅く感じた。LLMのおかげで、機械との自然言語インターフェースが開けた。このチップはリアルタイムにするから、いろんな使い道が広がるよ。

こんなに早く不正確な答えをもらったのは初めてだ、びっくり!冗談はさておき、すごく期待できるね。将来的には確実に儲かる市場だけど、8Bサイズのモデルには向いてないと思う。低い知能パラメータの量は80Bくらいだと思うけど、俺が何を知ってるってわけじゃないし。頑張って!

スピードがマジでヤバい。間違いない。量子化がかなり厳しいみたいで、比較チャートが誤解を招くかもしれないけど、クロードが提案したトリック質問を試してみたら、通常のオラマとチャットボットでほぼ同じ結果が出たよ。3ビットか4ビットに量子化しても、他のハードウェアであの「マジでヤバい」スピードは出ないだろうね!これはすごいコンセプトの証明だよ。もし彼らが話している中サイズのモデルを実現できたら…量産できるなら…今のところ、注文できないみたいだね。

2.5年前に設立されたタラスは、どんなAIモデルでもカスタムシリコンに変換するプラットフォームを開発しました。前例のないモデルを受け取ってから、ハードウェアに実現するまでわずか2ヶ月です。これはすごくクールだね。ただ、経済的にどうなるのかはよく分からないけど?モデルの世界では2ヶ月は長い時間だし。多くのタスクにおいて、モデルは今や「十分良い」状態になってるけど、特に「うまくいくまで試し続ける」ループに入れて高い推論速度で動かすとね。ただ、チップは数ヶ月しか持たない気がするから、定期的にアップグレードしなきゃいけないだろうね。モデルの成長が停滞しない限り、または関連するタスクで「十分良い」を超えない限り、両方ともあり得るけど。後者は、少なくとも特定の作業に関してはかなり可能性が高いと思う。そんなわけで、私は「最高のモデル」から「仕事ができる最速・最安のモデル」に焦点を移したよ。例えば、簡単なタスクに対してジェミニフラッシュとジェミニプロをテストしたら、どちらもタスクを問題なくこなすけど、フラッシュは3倍安くて3倍速いんだ。(あとは、バイトサイズの「リアルタイム」ワークフローのカテゴリーでグロックファストでも良い結果が出たよ。)

でも、モデルが急速に変化して新しいアーキテクチャが出てきている中で、どうやってスケールするのか、そして現行のトランスフォーマーアーキテクチャがこれ以上スケールするかどうかもまだ分からないよね。オープンな疑問がたくさんあるけど、VCたちはお金を注ぎ込んでいるみたいだね。