概要
- 高性能計算(HPC)と生成AI(GenAI)の普及を支えるアクセラレータ市場の現状整理
- Pezy Computingの独自アーキテクチャによる省電力・高効率アクセラレータの進化概要
- Pezy-SC4sチップの最新設計と性能、システム構成の特徴解説
- Pezy ComputingのソフトウェアスタックとAIフレームワーク対応状況
- 今後の展望としてSC5sや日本のHPC戦略の意義に言及
高性能計算とAIアクセラレータの潮流
- 世界のシステム投資の約半分を AIサーバー が占める現状
- アクセラレータ=GPUという常識を覆す新興技術の台頭
- GPUは 高スループットベクトル処理 と テンソル処理 に強み
- Pezy Computingは 独自アーキテクチャ による省電力アクセラレータ開発に注力
- 日本の NEDO による資金援助とFujitsuの「Monaka」CPU開発支援
Pezy Computingの歴史とアーキテクチャ
- Pezy-1(2012年登場): 512 RISCコア 搭載、40nmプロセス、266GFLOPS(FP64)性能
- 2013年以降、 SCファミリー (Super Computer)アクセラレータ展開
- SCシリーズでは 同時マルチスレッディング や キャッシュ階層 の工夫
- PE(Processor Element)単位で 2KB命令/データキャッシュ、 16KBスクラッチパッド
- 村(village)→都市(city)→県(prefecture) という階層構造でコアを集約
- SC2で L3キャッシュ全体共有 ・FP16演算追加、SC3で HBM2メモリ 搭載・性能大幅向上
- SC4sで TSMC 5nm プロセス、2048コア、1.5GHz、 96GB HBM3、3.2TB/sec帯域
Pezy-SC4sの設計詳細
- 2048 PEsで 16,384スレッド 同時実行
- 各PE: 4KB L1命令/データキャッシュ、 24KBスクラッチパッド
- 4PEで村、4村で都市、18都市で県(16都市有効化)、8県で州(state)
- 64MB L3キャッシュ 搭載
- カスタムクロスバーバス :読込12TB/sec、書込6TB/sec
- RISC-V Rocketコア(4基) 内蔵、Linux OS自律稼働可能
- PCI-Express 5.0 x16 (64GB/sec)対応
- システムボード:AMD Epyc 9555P(64コア)、400Gb/sec InfiniBand、4基SC4sアクセラレータ
ソフトウェアスタックとAI対応
- Pezy Computing独自の ソフトウェアスタック 開発
- PyTorch フレームワークに対応し、AIワークロード実行
- Google Gemma3、Meta Llama3、Alibaba Qwen2、Stable Diffusion 2、Hugging Face HuBertなどモデル移植実績
- GATK(Genome Analysis Toolkit)によるゲノム解析で Nvidia H100 GPUの2.25倍性能 (SC3比)
- SC4sはさらに 25%の性能向上、GATKでは2.8倍性能と推測
省電力性能と今後の展望
- FP64演算で41GFLOPS/W(SC3)、41GFLOPS/W(SC4s)
- SC5sは チップレット2基構成+FP8演算追加 で45.8GFLOPS/Wを見込む
- クロスバーインターコネクト の拡張性
- 日本独自のHPC戦略とPezy Computingの意義
- 今後のAI/HPC分野での 多様なアーキテクチャ 競争への期待