概要
- AIの普及 には高い 遅延 と コスト が障壁
- TaalasはAIモデルを 専用シリコン 化し、 高速・低コスト化 を実現
- 記憶と計算の融合、 徹底した単純化 が中核技術
- 初製品 はLlama 3.1 8B搭載、従来比 10倍高速・20分の1コスト
- 今後の展開 として、より高性能なモデルとオープンな開発方針
AI普及の障壁とTaalasの挑戦
- AIは特定領域 で既に 人間を凌駕 する性能
- 高遅延 と 膨大なコスト が普及の最大障壁
- 言語モデルの応答は 人間の思考速度に遠く及ばず
- コーディング支援などでは 数分の遅延 で作業効率が大幅低下
- AIエージェント用途 ではミリ秒単位の応答が必須
- 最新AIモデルの運用には 巨大なデータセンター と 高額な設備投資 が必要
- 数百キロワット消費、液冷、複雑なI/O、膨大な配線
- 都市規模 のデータセンターと衛星ネットワークが前提
- 歴史的には 巨大な初期プロトタイプ から 実用的な小型化 へ進化
- ENIACからトランジスタ、PC、スマートフォンへ進化
- 汎用計算機 は「 安価・高速・容易」で主流化
- AIも同様の進化 が必要
Taalasの概要と技術的核心
- Taalas は2.5年前創業、 AIモデルを専用シリコン化 するプラットフォームを開発
- 未知のモデルも 2ヶ月でハードウェア化 可能
- Hardcore Models :従来比で 10倍高速・10分の1コスト・10分の1消費電力
- コア原則
- 徹底的な専門化
- AI推論 は人類史上最重要計算ワークロード
- モデルごとに最適な専用シリコン を設計
- 記憶と計算の融合
- 従来は メモリと計算チップが分離、I/Oや冷却など複雑化
- DRAM密度で記憶・計算を単一チップ化 し、性能・効率を大幅向上
- 根本的な単純化
- メモリ・計算の境界撤廃 と モデル特化設計 でハードウェアスタックを再設計
- HBM・3Dスタック・液冷・高速I/O不要
- システム全体コストの桁違いの削減
- 徹底的な専門化
初期製品と性能
- 世界最速・最安・省電力の推論プラットフォーム を実現
- Taalas HC1 :Llama 3.1 8Bを ハードワイヤード 化
- 1ユーザーあたり17,000トークン/秒、従来比 約10倍高速
- 構築コストは20分の1、消費電力は10分の1
- Llama 3.1 8B を採用した理由
- 小型・OSS でハード化が容易
- 柔軟性 も確保( コンテキストウィンドウ調整、LoRAによるファインチューニング対応)
- 初代シリコン は3ビット・6ビット混在の独自量子化を採用し、一部品質劣化
- 第2世代シリコン は標準4ビット浮動小数点へ移行、品質・効率を両立
次世代モデルと展開
- 次モデル は 中規模推論LLM、春にラボ導入・サービス統合予定
- その次はフロンティアLLM、第2世代シリコン(HC2)で冬に展開予定
- 更なる高密度・高速化
- ベータサービス としてLlamaモデルを一般公開
- サブミリ秒推論、ほぼゼロコスト で新たなAIアプリケーションを促進
- 開発者向けにアクセス申請受付中
Taalasの組織と開発哲学
- 少数精鋭の長期協働チーム (20年以上の結束・外部パートナー連携)
- 新規メンバーは実力・理念共有・実績重視で厳選
- 本質重視・職人気質・厳格な運営 が特徴
- 24人・総額$30M で初製品を開発(調達額$200M超)
- 明確な目標と集中力 が大量資金・人数に勝ることを証明
- 今後もオープン開発、早期公開・迅速な反復を継続
結論と今後のビジョン
- 常識への問い直し と 未踏領域への挑戦 がTaalasの原動力
- 性能・効率・コストで桁違いの進化 を実現
- 従来とは根本的に異なる設計思想 でAIシステムを再定義
- 高遅延・高コストというAI普及の障壁を解消
- 即時・超低コストの知能を開発者の手に提供
- 今後も より高性能なモデルと新たなAI活用事例の創出 を目指す