世界を動かす技術を、日本語で。

なぜ日本はカスタム浮動小数点アクセラレーターへの投資を続けているのか?

概要

  • 高性能計算(HPC)と生成AI(GenAI)の普及を支えるアクセラレータ市場の現状整理
  • Pezy Computingの独自アーキテクチャによる省電力・高効率アクセラレータの進化概要
  • Pezy-SC4sチップの最新設計と性能、システム構成の特徴解説
  • Pezy ComputingのソフトウェアスタックとAIフレームワーク対応状況
  • 今後の展望としてSC5sや日本のHPC戦略の意義に言及

高性能計算とAIアクセラレータの潮流

  • 世界のシステム投資の約半分を AIサーバー が占める現状
  • アクセラレータ=GPUという常識を覆す新興技術の台頭
  • GPUは 高スループットベクトル処理テンソル処理 に強み
  • Pezy Computingは 独自アーキテクチャ による省電力アクセラレータ開発に注力
  • 日本の NEDO による資金援助とFujitsuの「Monaka」CPU開発支援

Pezy Computingの歴史とアーキテクチャ

  • Pezy-1(2012年登場): 512 RISCコア 搭載、40nmプロセス、266GFLOPS(FP64)性能
  • 2013年以降、 SCファミリー (Super Computer)アクセラレータ展開
  • SCシリーズでは 同時マルチスレッディングキャッシュ階層 の工夫
  • PE(Processor Element)単位で 2KB命令/データキャッシュ16KBスクラッチパッド
  • 村(village)→都市(city)→県(prefecture) という階層構造でコアを集約
  • SC2で L3キャッシュ全体共有 ・FP16演算追加、SC3で HBM2メモリ 搭載・性能大幅向上
  • SC4sで TSMC 5nm プロセス、2048コア、1.5GHz、 96GB HBM3、3.2TB/sec帯域

Pezy-SC4sの設計詳細

  • 2048 PEsで 16,384スレッド 同時実行
  • 各PE: 4KB L1命令/データキャッシュ24KBスクラッチパッド
  • 4PEで村、4村で都市、18都市で県(16都市有効化)、8県で州(state)
  • 64MB L3キャッシュ 搭載
  • カスタムクロスバーバス :読込12TB/sec、書込6TB/sec
  • RISC-V Rocketコア(4基) 内蔵、Linux OS自律稼働可能
  • PCI-Express 5.0 x16 (64GB/sec)対応
  • システムボード:AMD Epyc 9555P(64コア)、400Gb/sec InfiniBand、4基SC4sアクセラレータ

ソフトウェアスタックとAI対応

  • Pezy Computing独自の ソフトウェアスタック 開発
  • PyTorch フレームワークに対応し、AIワークロード実行
  • Google Gemma3、Meta Llama3、Alibaba Qwen2、Stable Diffusion 2、Hugging Face HuBertなどモデル移植実績
  • GATK(Genome Analysis Toolkit)によるゲノム解析で Nvidia H100 GPUの2.25倍性能 (SC3比)
  • SC4sはさらに 25%の性能向上、GATKでは2.8倍性能と推測

省電力性能と今後の展望

  • FP64演算で41GFLOPS/W(SC3)、41GFLOPS/W(SC4s)
  • SC5sは チップレット2基構成+FP8演算追加 で45.8GFLOPS/Wを見込む
  • クロスバーインターコネクト の拡張性
  • 日本独自のHPC戦略とPezy Computingの意義
  • 今後のAI/HPC分野での 多様なアーキテクチャ 競争への期待

Hackerたちの意見

オープンマーケットで売ってないのは残念だね。もし価格(と製造コスト!)が適正なら、NVIDIAの独占を脅かすようなアクセラレーターも少しはあると思うんだけど。

ハードウェアはNNトレーニングの加速の簡単な部分だよ。Nvidiaのソフトウェアとインフラはすごくよく設計されてて、確立されてるから、たとえハードウェアを無料で配っても競合は脅威にならないと思う。

オープンマーケットで売ってるよ。ただ、クラスター全体を買う必要があるけどね。Pezyの最小注文数は数ラックだよ。

興味深いね。

Pezyや他の日本製チップは、まず第一にHPCに特化してるんだ。ここ2年で世界はAIに注目してるけど、日本のチップメーカーはまだHPCを中心に考えてて、AIはその一つのワークロードに過ぎないんだよね。このPezyチップは大規模なクラスター向けにも作られてるし、ここで紹介されてない周辺システムの設計もあるんだ。例えば、Pezy-SC2は液体浸漬冷却を基に作られてる。空冷バージョンが手に入るかは分からないな。

液体浸漬冷却って、基板全体が液体に浸かってるの?それともプロセッサだけ?

例えば、Pezy-SC2は液体浸漬冷却を基に作られてる それで文が終わるのはちょっと残念だな。他の会社がHPCに数百万投資してSC2をプレイしてくれることを期待してたのに!

日本はコンピュータの分野で独自の道を歩んできた歴史が結構長いことも注目に値するかも。自分たちのアーキテクチャを作ったり、他のアーキテクチャを採用したりするのは、みんなが別の方向に進んでからなんだよね。

自分でCPUを作るなら、なんでGPUをアメリカの企業に頼らなきゃいけないの?これ、めっちゃ理にかなってるよ。GPUはワークロードが使えるなら素晴らしいけど、一般的なタスクにはあんまり向いてないよね。もっと伝統的なスーパーコンピュータのタスクに適してるし、NVIDIAのGPUみたいに低精度のAI向けには最適化されてないんだ。

LLMの流行で、NVIDIA(他の企業も)からの旧世代のテンソルアクセラレーターがFP64のHPCワークロードには全然役に立たなくなったからね。記事からの引用: 「ホッパーH200はFP64で47.9ギガフロップス/ワット(33.5テラフロップスを700ワットで割った値)で、ブラックウェルB200は33.3ギガフロップス/ワット(40テラフロップスを1,200ワットで割った値)と評価されている。ブラックウェルB300はFP64がかなり制限されていて1.25テラフロップスで、1,400ワットを消費するから、0.89ギガフロップス/ワットになる。(B300は本当に低精度のAI推論向けに設計されてる。)」

意図的にFP64を制限したカードって、FP64の処理をする時にTDPに近い電力を使うのかな?FP64の性能はハードウェアレベルで制限されてるって聞いたけど、余分な回路を切り離したり、ダイから完全に省いたりして、アフターマーケットのアンロックを防ぐためなんだよね。だから、カードがそのくらいの電力を引き出せるとは思えないな。意図的にシリコンのほんの一部しか使ってないのに。

この文脈での「アクセラレーター」って何?

なんかおかしいことがある気がする。リストにあるピークFP64性能は、スレッドごとに1クロックあたり1つのFP64演算を仮定してるけど、各PEがサイクルごとに8フロップスをどうやって実現してるのか、あんまり説明がないんだよね。「スレッドはペアになっていて、一方がスタックした時にもう一方が処理を引き継ぐ…」って、典型的なレイテンシ隠しだし。だから、性能の数値は各PEが8幅のSIMDユニット(FP32用は16幅)か、8つの別々にスケジュール可能な実行ユニットを持っていると仮定してるはずだけど、コアのシンプルさを考えるとどちらもありえない気がする(または4つのFMA EU)。何か見落としてる?

日本が標準のAIツールチェーンに投資してるのは面白いね。標準のHPCツールチェーンじゃなくて。日本のスーパーコンピュータは後者の需要がもっとあると思うんだけど。

みんなが言ってることに付け加えると、日本は核の閾値国家として知られてるよね(武器の観点から)。彼らは明確に核実験を行うのに数週間の距離にいるって言ってるし、「ドライバーの回転一つで核兵器を持てる」ってよく言われてる。政府はその地位を維持するために巨額の投資をしてるし、できるだけ国内のサプライチェーンでやろうとしてる。だから、アメリカの国立研究所と同じようにスーパーコンピュータが必要だし(シミュレーションにもっと依存してるから、むしろもっと必要かも)、その重要なインフラの地元調達を強く好んでるんだ。急速に発展するためのローカルな推進力の大部分が、TSMCやサプライチェーンリスクから彼らを引き離すためだと思っても驚かないよ。中国・台湾の問題が深刻化した時のためにね。

それはすごく興味深いね。残念ながら、多くの国が核の野心を再考しているみたいだけど、日本の視点から見ると、一般的にもっと攻撃的な環境と、信頼できるアメリカの同盟国がいることを考えると、納得できる部分があるね。

「彼らは明確に、核兵器実験ができるまで数週間だと言っている」 「『数週間』の出典はあるの?」 「ウィキペディアには『1年以内』って書いてあるだけなんだけど。」