概要
- OpenAIの新しいオープンソースLLM「gpt-oss-120b」 のリリース当日に最高性能を目指した最適化事例
- NVIDIA GPU上でのレイテンシ・スループット で業界リーダーとなった実績
- TensorRT-LLM、vLLM、SGLang など複数のフレームワークを活用したベンチマークと互換性確保
- バグ修正・パフォーマンス改善 を迅速に繰り返し、オープンソースコミュニティにも貢献
- 今後の最適化方針と採用情報 についても言及
OpenAI GPT-OSS-120Bパフォーマンス最適化事例
- OpenAIのgpt-oss-120b リリース直後から顧客向けに最適なパフォーマンスを追求
- OpenRouterの実データ によると、NVIDIA GPU上でレイテンシ・スループット共に業界トップ
- 柔軟な推論スタック とモデルパフォーマンスエンジニアリングチームによる迅速な改善体制
- 数時間単位でトークン生成速度を向上 し、稼働率100%を維持
- TensorRT-LLM、vLLM、SGLang など複数の推論フレームワークでベンチマーク実施
- HopperおよびBlackwellアーキテクチャ との互換性を確保し、幅広いGPUサポートを実現
- NVIDIA DynamoやKVキャッシュ対応ルーティング、Eagleによる推測デコーディング など独自最適化も導入
モデル推論最適化のステップ
-
Step 1: ベースライン推論の実行
- 新モデル対応の推論フレームワーク・ハードウェア・サーバーの準備
- 複数エンジニアが並列でvLLM、SGLang、TensorRT-LLM を検証
- TensorRT-LLMの開発版 を活用し、Hopper/B200両方のGPUで稼働
- 柔軟性の高いBaseten Inference Runtime により、新アーキテクチャにも素早く対応
-
Step 2: 互換性バグの修正
- 新アーキテクチャやHarmony形式 対応で発生するバグの修正
- 速度・正確性を重視した反復的なテストと修正
- オープンソースコミュニティへバグフィックスを還元
- 多様なOSS推論フレームワークの急速な改善 により安定稼働を実現
-
Step 3: モデル設定の最適化
- GPT-OSS-120Bは単一H100でも稼働可能 だが、4~8枚GPUの並列化で性能向上
- Tensor ParallelismとExpert Parallelism の比較検証
- Tensor Parallelismは低レイテンシ
- Expert Parallelismは高スループット
- レイテンシ重視のため Tensor Parallelismを選択
- TensorRT-LLM MoE Backend の採用でCUDAカーネル最適化(Blackwell対応、Hopper非対応)
- モデルライブラリに最適化済み設定をパッケージ化 し、API提供も実施
今後のパフォーマンス最適化と展望
- 現状でもSOTAのレイテンシ・スループット を達成
- Speculative Decoding(推測デコーディング) の導入を検討
- Eagle 3 など10種類以上のアルゴリズムに対応
- ドラフトモデルで先読みし、ターゲットモデルで検証 することで推論速度を大幅向上
- モデルパフォーマンスエンジニアを積極採用中
- AIエンジニアリングチーム向けに最適化支援サービス も提供
- GPT-OSS-120Bや他のオープンソース・カスタムモデルの最適化 相談受付
まとめ
- gpt-oss-120bのリリース初日からSOTA性能を実現
- 柔軟な推論基盤・積極的なバグ修正・最適化ノウハウ が鍵
- 今後もさらなる最適化と技術革新 を推進