概要
- ノルウェー国立図書館が ノルウェー語対応LLM の開発を推進
- Huawei OceanStor Dorado の2PBフラッシュストレージをAI訓練データパイプラインに活用
- 国内最大のデジタル文化遺産コレクションを強みとする
- データ品質・パイプライン処理が主な課題
- 評価・ガバナンス・オーケストレーション に関する継続的な学び
ノルウェー国立図書館によるノルウェー語LLM開発プロジェクト
- ノルウェー国立図書館(Nasjonlbiblioteket) がノルウェー語に特化した 大規模言語モデル(LLM) を開発
- 商用LLMプロバイダーはノルウェー語LLMを開発していない現状
- 英語中心のグローバルLLM ではノルウェーの歴史・ニュース・文化的背景を十分に理解できない課題
- ノルウェー文化省より 主権的AI(LLM)構築 を委託
- 図書館は国内最大のデジタル書籍・新聞・ウェブ・放送コンテンツコレクションを保有
- 法定納本制度により全出版物・放送コンテンツの収集・保存義務
- ノルウェー新聞社との合意で 著作権付きコンテンツのLLM訓練利用 を実現
- 2005年からコレクションのデジタル化を推進、 20PBのユニークデータ を3-2-1形式(3コピー・2媒体・1オフサイト)で保存、合計約 60PB 規模
- データ形式は生テキスト・音声・動画・静止画・ウェブ等多様、 OCRスキャン やメタデータ生成・API提供も実施
AI訓練データパイプラインとストレージ構成
- データの大部分は ディスク+テープアーカイブ による保存システムで管理
- AI訓練システムへのデータ移行 がプロジェクトの主要課題
- ボトルネックは計算能力ではなく、 データ品質・クリーニング・パイプラインスループット
- 主な処理段階
- 社内計算環境 :Nvidia DGX H200システム、384コアCPUクラスター、複数のHuawei OceanStor Doradoオールフラッシュアレイ(合計2PB)
- 低レイテンシーなフラッシュストレージ によるデータパイプライン・訓練準備
- パイプライン処理内容:データ取り込み、クリーニング、重複排除、フォーマット正規化、検証、準備
- パイプライン通過後のデータは ノルウェー国立スーパーコンピュータ Sigma2 Oliviaシステム で訓練実施
- Oliviaシステム:HPE Cray Supercomputing EX、448GPU、64,512CPUコア、5.3PB Cray ClusterStor E1000ストレージ
アーカイブとAIパイプラインストレージの課題
- 60PBの保存システム は耐久性・コスト重視で高速IOには不向き、高レイテンシー設計
- AIパイプラインストレージ は高スループット・低レイテンシー・並列データIO最適化
- PBスケールのデータセットをアーカイブからAIパイプラインへ移動するノウハウ不足
- チーム独自で方法を模索しながらシステム構築
継続的な学びと今後の課題
- 評価 :主権ノルウェー語LLMを評価する標準ツールが存在せず、独自ツールを開発中
- ノルウェー語の二つの公用文語、方言、多様な歴史的変遷への対応
- ガバナンス :主権LLMのアクセス管理・利用範囲の決定は機関・政治的課題
- オーケストレーション :保存アーカイブ+オンプレAI環境+国立スーパーコンピュータの三者連携の最適化
国際的な意義と示唆
- Huaweiストレージ が欧州市場で重要な役割を果たしている事例
- 主権的・地域言語LLM開発を目指す国々への参考事例
- AIは構築者だけでなく、文化・歴史の「管理者(custodian)」が必要 であるという示唆