なぜ日本はカスタム浮動小数点アクセラレーターへの投資を続けているのか？

2025年9月6日原文(nextplatform.com)

概要

高性能計算（HPC）と生成AI（GenAI）の普及を支えるアクセラレータ市場の現状整理
Pezy Computingの独自アーキテクチャによる省電力・高効率アクセラレータの進化概要
Pezy-SC4sチップの最新設計と性能、システム構成の特徴解説
Pezy ComputingのソフトウェアスタックとAIフレームワーク対応状況
今後の展望としてSC5sや日本のHPC戦略の意義に言及

高性能計算とAIアクセラレータの潮流

世界のシステム投資の約半分を AIサーバー が占める現状
アクセラレータ＝GPUという常識を覆す新興技術の台頭
GPUは 高スループットベクトル処理 と テンソル処理 に強み
Pezy Computingは 独自アーキテクチャ による省電力アクセラレータ開発に注力
日本の NEDO による資金援助とFujitsuの「Monaka」CPU開発支援

Pezy Computingの歴史とアーキテクチャ

Pezy-1（2012年登場）： 512 RISCコア 搭載、40nmプロセス、266GFLOPS（FP64）性能
2013年以降、 SCファミリー （Super Computer）アクセラレータ展開
SCシリーズでは 同時マルチスレッディング や キャッシュ階層 の工夫
PE（Processor Element）単位で 2KB命令/データキャッシュ、 16KBスクラッチパッド
村（village）→都市（city）→県（prefecture） という階層構造でコアを集約
SC2で L3キャッシュ全体共有 ・FP16演算追加、SC3で HBM2メモリ 搭載・性能大幅向上
SC4sで TSMC 5nm プロセス、2048コア、1.5GHz、 96GB HBM3、3.2TB/sec帯域

Pezy-SC4sの設計詳細

2048 PEsで 16,384スレッド 同時実行
各PE： 4KB L1命令/データキャッシュ、 24KBスクラッチパッド
4PEで村、4村で都市、18都市で県（16都市有効化）、8県で州（state）
64MB L3キャッシュ 搭載
カスタムクロスバーバス ：読込12TB/sec、書込6TB/sec
RISC-V Rocketコア（4基） 内蔵、Linux OS自律稼働可能
PCI-Express 5.0 x16 （64GB/sec）対応
システムボード：AMD Epyc 9555P（64コア）、400Gb/sec InfiniBand、4基SC4sアクセラレータ

ソフトウェアスタックとAI対応

Pezy Computing独自の ソフトウェアスタック 開発
PyTorch フレームワークに対応し、AIワークロード実行
Google Gemma3、Meta Llama3、Alibaba Qwen2、Stable Diffusion 2、Hugging Face HuBertなどモデル移植実績
GATK（Genome Analysis Toolkit）によるゲノム解析で Nvidia H100 GPUの2.25倍性能 （SC3比）
SC4sはさらに 25%の性能向上、GATKでは2.8倍性能と推測

省電力性能と今後の展望

FP64演算で41GFLOPS/W（SC3）、41GFLOPS/W（SC4s）
SC5sは チップレット2基構成＋FP8演算追加 で45.8GFLOPS/Wを見込む
クロスバーインターコネクト の拡張性
日本独自のHPC戦略とPezy Computingの意義
今後のAI/HPC分野での 多様なアーキテクチャ 競争への期待

Hackerたちの意見

オープンマーケットで売ってないのは残念だね。もし価格（と製造コスト！）が適正なら、NVIDIAの独占を脅かすようなアクセラレーターも少しはあると思うんだけど。

└

ハードウェアはNNトレーニングの加速の簡単な部分だよ。Nvidiaのソフトウェアとインフラはすごくよく設計されてて、確立されてるから、たとえハードウェアを無料で配っても競合は脅威にならないと思う。

└

オープンマーケットで売ってるよ。ただ、クラスター全体を買う必要があるけどね。Pezyの最小注文数は数ラックだよ。

興味深いね。

Pezyや他の日本製チップは、まず第一にHPCに特化してるんだ。ここ2年で世界はAIに注目してるけど、日本のチップメーカーはまだHPCを中心に考えてて、AIはその一つのワークロードに過ぎないんだよね。このPezyチップは大規模なクラスター向けにも作られてるし、ここで紹介されてない周辺システムの設計もあるんだ。例えば、Pezy-SC2は液体浸漬冷却を基に作られてる。空冷バージョンが手に入るかは分からないな。

└

液体浸漬冷却って、基板全体が液体に浸かってるの？それともプロセッサだけ？

└

例えば、Pezy-SC2は液体浸漬冷却を基に作られてるそれで文が終わるのはちょっと残念だな。他の会社がHPCに数百万投資してSC2をプレイしてくれることを期待してたのに！

日本はコンピュータの分野で独自の道を歩んできた歴史が結構長いことも注目に値するかも。自分たちのアーキテクチャを作ったり、他のアーキテクチャを採用したりするのは、みんなが別の方向に進んでからなんだよね。

自分でCPUを作るなら、なんでGPUをアメリカの企業に頼らなきゃいけないの？これ、めっちゃ理にかなってるよ。GPUはワークロードが使えるなら素晴らしいけど、一般的なタスクにはあんまり向いてないよね。もっと伝統的なスーパーコンピュータのタスクに適してるし、NVIDIAのGPUみたいに低精度のAI向けには最適化されてないんだ。

LLMの流行で、NVIDIA（他の企業も）からの旧世代のテンソルアクセラレーターがFP64のHPCワークロードには全然役に立たなくなったからね。記事からの引用: 「ホッパーH200はFP64で47.9ギガフロップス/ワット（33.5テラフロップスを700ワットで割った値）で、ブラックウェルB200は33.3ギガフロップス/ワット（40テラフロップスを1,200ワットで割った値）と評価されている。ブラックウェルB300はFP64がかなり制限されていて1.25テラフロップスで、1,400ワットを消費するから、0.89ギガフロップス/ワットになる。（B300は本当に低精度のAI推論向けに設計されてる。）」

└

意図的にFP64を制限したカードって、FP64の処理をする時にTDPに近い電力を使うのかな？FP64の性能はハードウェアレベルで制限されてるって聞いたけど、余分な回路を切り離したり、ダイから完全に省いたりして、アフターマーケットのアンロックを防ぐためなんだよね。だから、カードがそのくらいの電力を引き出せるとは思えないな。意図的にシリコンのほんの一部しか使ってないのに。

この文脈での「アクセラレーター」って何？

Hacker Newsで議論の続きを見る

ハクソク