第八世代TPU：エージェント時代のための二つのチップ

18日前原文(blog.google)

概要

Googleが第8世代の Tensor Processor Unit（TPU 8t/8i） を発表
TPU 8tは大規模なAIモデルのトレーニング、TPU 8iは 高速推論 に特化
効率性と性能の大幅向上 を実現するカスタム設計
今年後半に一般提供予定、事前情報リクエスト可能
AIエージェント時代 に向けたインフラ進化の象徴

Google第8世代TPU「TPU 8t/8i」発表

Googleが Tensor Processor Unit（TPU）第8世代 を発表
TPU 8t ：大規模AIモデルの トレーニング 専用設計
TPU 8i ： 低レイテンシ推論 に最適化されたチップ
10年以上の開発の集大成であり、 Gemini など主要AI基盤モデルも支援
Google DeepMind と共同設計による最先端AIワークロード対応

TPU 8tの特徴

計算性能 ：前世代比で 約3倍 の計算能力を1ポッドで実現
大規模スケール ：1スーパー・ポッドで 9,600チップ、2PBの共有高帯域メモリ
インターチップ帯域 ：前世代の 2倍、合計 121 ExaFlops の計算力
最大活用 ： 10倍高速なストレージアクセス、TPUDirectによるダイレクトデータ転送
高い信頼性 ： 97%以上の「goodput」 を目指し、RAS機能を強化
- リアルタイムテレメトリ、自動障害検知・迂回、 Optical Circuit Switching による無停止リカバリ

TPU 8iの特徴

推論最適化 ：多エージェント協調や反復処理に最適
メモリ強化 ： 288GBの高帯域メモリ ＋ 384MBのオンチップSRAM （前世代比3倍）
Axion ARMベースCPU ： 物理ホスト数2倍、NUMA構成で性能最適化
ネットワーク革新 ： ICI帯域19.2Tbps、新アーキテクチャ「Boardfly」で低レイテンシ
CAE搭載 ：オンチップCollectives Acceleration Engineで 遅延最大5倍削減
コスト効率 ：前世代比 80%性能向上/コスト同等 で処理量2倍

共通技術・エコシステム

JAX、MaxText、PyTorch、SGLang、vLLM など主要フレームワークに対応
ベアメタルアクセス 提供、仮想化オーバーヘッドなし
MaxTextリファレンス実装 や Tunix などOSS貢献
Axion ARMベースCPU によるシステム全体最適化
第4世代液冷技術 で高密度冷却・省電力化
シリコンからデータセンターまで 一貫した効率設計
Google Cloud Hypercomputer の一部として利用可能

電力効率とインフラ進化

性能当たり電力効率2倍 （前世代Ironwood比）
ネットワークと計算を同一チップ上で統合 しデータ移動コスト削減
最新データセンター は5年前比で 6倍の計算能力/電力単位
液冷分配ユニット による高密度運用
全スタック最適化 による持続可能なAIインフラ

AIエージェント時代への対応

連続的な推論・計画・実行・学習ループ に対応するインフラ
TPU 8t/8i はAIモデル構築・推論・エージェント協調作業を再定義
今年後半に一般提供開始予定
Google Cloud Hypercomputer として統合運用可能
新時代のAIインフラ への転換点となる製品

まとめと今後

TPU 8t/8i はAI開発・運用の 効率・性能・スケール を大幅に向上
事前情報リクエスト受付中、 業界最先端のAI基盤 構築を支援
Googleのイノベーション が現実のブレークスルーを加速

Hackerたちの意見

1つのTPU 8tスーパーポッドは、今や9,600チップと2ペタバイトの共有ハイバンド幅メモリにスケールアップできるんだって。前の世代の2倍のインターチップ帯域幅を持ってるし。このアーキテクチャは121エクサフロップスの計算能力を提供して、最も複雑なモデルが1つの巨大なメモリプールを活用できるようになってる。すごいと思うけど、詳しくないから実際はそんなにすごくないのかもしれない。でも、私の目から見ると、Googleにとって競争優位性があるように見えるね。

└

そうだね。指示とデータの分離に関するブレイクスルーがない限り、AGIはまだ作れないよ。

他の企業がニュースに注目されてる中で、Googleは静かに力をつけて消費者市場のシェアを獲得してるように思う。AIに関しては、初日から縦割りで統合されてるから、あまり（ほとんど？）インフラの問題もないみたいだし。一時期は絶望的に見えたけど、まるで潮のように、どんどん成長してる感じ。

└

おそらく、君はGemini 3を使ったことがないんだろうね。あれは信頼性が低すぎて、提供しない方がマシだったかも。ここでみんながClaudeやCodexにワクワクしてる理由もわかるけど、Antigravityにはあまり興味がないんだよね。とはいえ、実際に同意するよ：Googleは個人的には「ノーマルビジネス」のチャットボットエリアで静かに支配してると思う。Geminiは日常的なことには結構いい感じだよ。

└

そうだね、数年後（1〜2年？）にはGoogleとAppleの両方がケーキを食べる時が来ると思う。彼らは毎月未完成の製品を急いでリリースして評価を倍増させるゲームをしてるわけじゃないし、じっくり考えて観察して、本当に洗練されたものを出す時間がある。少なくともそれが希望だね！ :)

└

彼らの最新のオープンモデルは、他のオープンモデルとかなり競争力があるし、サイズが小さい（2〜4GB）モデルに関する革新も進んでる。スマホや他の小型デバイスで現実的な品質の推論に近づく手助けをしてるよ。

└

AIの導入は、GoogleにとってはOAIやAnthropicほどの重要性はないね。他の二社みたいに盛り上がることもできないし、彼らの言うことはただの企業の戯言に聞こえちゃう。

└

Googleは静かに消費者市場のシェアを獲得して、インフラの問題もあまりないみたいだね。AIに関しては最初から縦に統合されてるし。Google Antigravityのサブレディットはひどいけどね: https://www.reddit.com/r/GoogleAntigravityIDE/

現在、大規模なAIをやるには基本的にNVidiaから買うか、Googleからレンタルするしかないよね。Googleはデータセンター全体の文脈でチップやエンジン、システムを設計できるから、チップベンダーには不可能な部分を中央集権化できる。だから、本当に大きくなった時には、Googleのシステムが常にコスト効率が良いと思う。（開示：私はGOOGに長期投資してるよ、これと他のいくつかの理由で）

└

もし彼らの経営陣がこんなにインスピレーションがないわけじゃなかったら、私も賭けると思う。クックの下のAppleもかなり穏やかで、ジョブズからは大きく後退したけど、Googleは崖から落ちた感じがする。OpenAIがChatGPTをリリースしてなかったら、彼らはその技術に座ったままで、内部でしかテストしてなかったかもしれない。今やそれが彼らの全てのチップR&Dを駆動してる。

└

Gemini CLIを使って、CodexやClaudeに近い体験ができるなら、Googleに長期投資したいと思うけどね。彼らは素晴らしいハードウェアを持ってるかもしれないけど、フラッグシップのコーディングエージェントがターンのトークンを見つけるのにループにはまっちゃうなら、意味がないよ。

└

アマゾンも同じことやってるんじゃないの？自社のTPUを作ってるみたいだし。

このリンクにはアーキテクチャについてもっと詳しく載ってるよ：https://cloud.google.com/blog/products/compute/tpu-8t-and-tp...

「TPU 8t と TPU 8i は、前の世代に比べて最大で2倍のパフォーマンスを発揮する」ってすごいよね。特に前の世代が最近（2025年）だから。推論とトレーニング用のハードウェアが別々にあるのも面白い。NVのハードウェアを使ってる会社は、各タスクごとに違うハードウェアを使ってるのかな、それとも計算資源はもっと柔軟に使えるのかな？

└

ヴェラ・ルービンは、速い推論に特化したGroqチップを使うから、これはトレンドを示してるね。それに、エネルギーの需要がこんなに高いなら、あらゆる最適化を追求するのは当然じゃない？

└

Nvidiaは3月に特化した推論ハードウェアに取り組んでるって言ってたけど、今はまだ持ってないみたい。Nvidiaの現行ハードウェアでも推論はできるけど、効率はあんまり良くないよね。

└

「トレーニング」用のチップは、スローペースで高スループットの推論にかなり使えると思う。時間に敏感じゃない用途には、最終的にかなり人気になるんじゃないかな。

└

NVIDIAについてはわからないけど、AWSは独自のトレーニングと推論用のチップを持ってるらしいよ。噂によると、推論用のチップはちょっと弱いみたいで、いくつかの企業はトレーニング用のチップで推論をやってるって。

└

トレーニングが計算に依存してて、推論がメモリに依存してるのは有名だけど、Nvidiaの導入は通常、どちらかに特化してるわけじゃないと思う。理由の一つは、ほとんどのクラウドやネオクラウドがワークロードを所有してなくて、柔軟性を求めてるから。H200sにお金をかけてるなら、いろんな顧客に売れるようにネットワークにも投資するのがいいよね。Vera RubinのGrok LPUは推論専用のアクセラレーターで、Cerebrasも推論最適化されてるから、特化が始まってる感じ。

└

推論とトレーニングに特化したハードウェアがあるのは面白いね。NVのハードウェアを使ってる企業も、それぞれのタスクに対して違うハードウェアを使ってるのかな、それとも計算がもっと柔軟なのかな？専用ハードウェアは通常速いから、特定のものが成熟すると、複雑で高価なものから安くて豊富な$1チップに変わるんだよね。これを見ると、GoogleはNVidiaで構築してる人たちよりも自分たちのスタックをよく理解してるって感じる。Googleはキーボードからシリコンまで全部持ってるからね。彼らはたくさんの反復を重ねて、リソースを競い合う異なる機能を分ける方法を理解してるんだ。

大手の推論プロバイダーの中で、Googleがモデルの廃止に関して一番不便なポリシーを持ってるのは興味深い。彼らはモデルをリリースからちょうど1年後に廃止して、次の世代のモデルに移行させるんだ。自社のシリコンを使ってるから、もっと安定性を提供できると思ってたけど、逆のようだね。彼らのレート制限も、例えばOpenAIよりずっと厳しいし。これがTPUに関係してるのか、それともただの変なポリシー決定なのか気になるな。

└

古いGeminiのリリースを簡単に廃止する姿勢にはイライラする。新しいモデルが90%以上のボリュームを処理するようになると、すぐに最新のモデルを使うツールが多いから、Googleの標準的なコスト/ベネフィット分析が適用されて、古いものはあっさりとオフにされちゃう。最近、Gemini 2.5のEOL日を延長したのは実際驚きだね。Googleは特に顧客にこだわる会社じゃないから…。

└

Flash 2は6月までEOLじゃないのに、週末に429エラーが約90%の確率で出始めた。（だからGPT 5.4 nanoに切り替えた。）

面白いのは、Gemini、ChatGPT、Claudeを使っている者として、Geminiが他の2つに比べてトークンの使用量が圧倒的に少ないことだね。Geminiは思考の予算がかなり小さいから、こうなってるのかな。これを納得するのは難しいけど、Googleは多分一番計算リソースを持ってて、しかもコストも低いはずなのに、なんで他の2つみたいに推論計算をフル活用してないんだろう？もしかして、提供している他のサービスが重すぎるのかな？それとも、もっとトレーニングに力を入れようとしてるのか？よくわからないけど、興味深いね。

└

何かしらの競争優位性がないとダメだよね。ClaudeやChatGPTよりもGeminiを使う理由って何？出力の質が全然違うじゃん。

└

今日、彼らはエンタープライズ向けのエージェントプラットフォームをリリースしたから、フォーチュン500企業がその推論を置く重力井戸になるかもって期待してる。

└

2ヶ月くらい、20ドルくらいのGoogle Oneサブスクリプションを使ってGemini Proを試してみたけど、ChatGPT 5.4 Pro（仕事で使ってるやつ）に比べて、情報を確認するためのウェブ検索が一貫して少ないことに気づいたよ。コーディングの比較をしようと思ってたけど、GeminiのVSCodeアドインがうまく動かなくて、結局ダメだった。Androidとウェブアプリもバグだらけで、スレッド間を切り替えるとチャット履歴が消えちゃうのは最悪。今月中にGoogle Oneのサブスクリプションをキャンセルするつもり。

└

GLM-5がGLM-4.7よりも優れているのは、トークンを使う意欲が高かったからだと思う。4.7が十分なソースコードを読んで、何をしているのかを理解させるのが本当に大変だったけど、一度読ませることができたら、結構優秀だった。ケチるのも良いことだけど、逆にシステムが十分に反映されてなかったり、考慮すべき要素が足りなかったり、ソースコードを十分に読んでなかったりすることもあるよね。まだまだ「誰が本当に知ってるの？」って感じだし、トークンの使い方とケチさについては複雑な気持ちだな。

Gemini 3は、効率のためにモデルをトレーニングすると何が可能かを証明したと思う。予想だけど、プロとフラッシュのバリアントは、OpusやGPT-5クラスのモデルよりも5倍から10倍小さいんじゃないかな。問題を解決するために必要なトークンの量が圧倒的に少ないけど、推論や実行の洗練に十分な努力をしていないみたいで、壊れたツールコールを出したり、「エージェント的」なタスクで苦労してる。だけど、ツールや検索なしでの生の問題解決に関しては、OpusやGPTと同等で、サイズはおそらくその一部。Googleは、プロトタイピングからプレビューじゃないモデルを作る段階に進んだら、SOTAを超えるモデルでみんなを驚かせると思う。今までのモデルは、投資家に見せるためのプロトタイプをGAに押し込んだだけのように感じる。

└

問題を解決するために必要なトークンの量が圧倒的に少ないけど、推論や実行の洗練に十分な努力をしていないみたいで、壊れたツールコールを出したり、「エージェント的」なタスクで苦労してる。だけど、ツールや検索なしでの生の問題解決に関しては、OpusやGPTと同等で、サイズはおそらくその一部。そうだね、Gemini-cliはCCやCodexに比べてひどい。けど、Googleは明らかに伝統的な検索を補完または置き換えるための最高のAIを優先してる。それが彼らの主力商品だからね。他の誰よりもその収益化に有利な立場にいると思う。彼らは他の誰よりも1B以上のユーザーを持ってるし、全てのLLMを足しても、まだ他の誰よりもクエリボリュームが多いだろう。Gemini-cliをもっと優先してくれるといいな、そうすればもっと競争が生まれると思う。

└

確かGemini 3 Proが出たときは、当時のClaudeのバージョン（4？）とほぼ同等だと考えられてたよね。今はGemini 3がちょっと古く見える。あれから中国のモデルがたくさん出て、少なくとも2、3バージョンのClaudeも出たから、Googleがちょっと停滞してるように見えるかも。もしかしたら君の言う通り、すぐに大きな進歩を見せてくれるかもしれないね。ちなみに、Gemini 3.1のリリースがあったのは知ってるけど、3からの変化はあまり感じなかったな。

└

彼らの「プレビュー」って名前はかなり適当だよね。実際には、利用可能性や持続性に関する約束を避けるための方法に過ぎないし、保証なんて全然ない。失敗を隠すためのPR戦略でもあるし、ベータ品質だってふりをしてる。

└

面白い言葉の組み合わせだね。「感じた」→「証明された」→「推測」。その中の一つは他と全然違うよね！

└

これって俺の勘違い？それともAIの返信？記事とはほとんど関係ない気がするんだけど、両方ともAIに関連してるだけだし。

FTA: > TPU 8tの1ポッドは121 ExaFlops、つまり121,000 PetaFlopsだって。一方で、世界のトップ10のスーパーコンピュータの計算能力は11,487 Petaflopsだよ。[1] 知ってる、知ってる、同じフロップスじゃないって言うけど、それでもね。たった1ポッドだけでもかなりすごいよ。編集: [1] https://top500.org/lists/top500/2025/11/

Junie（JetBrainsのClaudeコードの試み）でGeminiを使ってるけど、JunieはClaudeコードには全然及ばないけど、現在のGoogleのツールよりはかなり進んでるよ。この組み合わせで、かなり安くて一貫した良い結果が得られてる。

└

ジュニーはJetBrainsのIDEやツールの文脈で、競合と比べてどう思う？

ハクソク