概要
- NVIDIA B200 GPU 環境で Open GPU Kernel Modules (バージョン570.133.20)を使用
- openeuler 2.0 (LTS-SP2)、 カーネル6.6.0-100 上での動作
- 約66日間の稼働後、 nvidia-smiコマンドがハング する問題
- dmesgに knvlink関連のエラー 多数記録
- プロプライエタリドライバでは未発生、オープンカーネル限定のバグ
NVIDIA Open GPU Kernel Modulesにおける長時間稼働後のnvidia-smiハング事象
-
GPU: NVIDIA B200
-
OS: openEuler 2.0 (LTS-SP2)
-
カーネル: 6.6.0-100(安定版リリース)
-
ドライバ: Open GPU Kernel Modules 570.133.20(OpenRM)
-
発生タイミング: システム稼働約66日12時間後
- nvidia-smiコマンドが無限ハング する現象
- プロプライエタリドライバ (同バージョン)では発生しないことを確認済み
- カーネルは安定版 (-rc等ではない)
- 再現手順:
- B200 + OpenRM + カーネル6.6.0
- システムを66日以上連続稼働
- nvidia-smi実行時にハング
ログ・エラー情報
-
dmesg出力例:
NVRM: knvlinkUpdatePostRxDetectLinkMask_IMPL: Failed to update Rx Detect Link mask!NVRM: knvlinkDiscoverPostRxDetLinks_GH100: Getting peer1's postRxDetLinkMask failed!- 上記エラーが 複数回繰り返し記録
-
システム稼働状況:
uptimeコマンドで 67日超の稼働 を確認last rebootでも 長期稼働 が裏付け
追加情報・再現性
- nvidia-bug-report.log.gz 等の追加ログは未提出
- バグ発生頻度: 1回のみ確認
- 再現条件: 長期稼働後にのみ発生
考察・推奨対応
- Open Kernel Driver固有のバグ である可能性が高い
- knvlink関連の内部状態不整合 や リソースリーク による影響が疑われる
- プロプライエタリドライバでは発生しない ため、OpenRM固有の実装問題の可能性
- ワークアラウンド: 定期的な再起動、またはOpenRMのアップデート確認
- 推奨アクション:
- 詳細な nvidia-bug-report.log.gz の取得・提出
- Open Kernel Driver開発チームへの報告
- knvlink周辺のコードレビュー および リソース管理ロジック の再調査
まとめ
- 長期稼働環境 での Open GPU Kernel Modules利用時のnvidia-smiハング は、 knvlink関連のバグ が強く示唆される
- プロプライエタリドライバとの差分解析 が重要
- 追加ログ提出 および 開発元へのフィードバック が解決への第一歩