ノルウェーの2ペタバイトのHuaweiフラッシュストレージとLLMトレーニング

2026年5月26日原文(blocksandfiles.com)

概要

ノルウェー国立図書館が ノルウェー語対応LLM の開発を推進
Huawei OceanStor Dorado の2PBフラッシュストレージをAI訓練データパイプラインに活用
国内最大のデジタル文化遺産コレクションを強みとする
データ品質・パイプライン処理が主な課題
評価・ガバナンス・オーケストレーション に関する継続的な学び

ノルウェー国立図書館によるノルウェー語LLM開発プロジェクト

ノルウェー国立図書館（Nasjonlbiblioteket） がノルウェー語に特化した 大規模言語モデル（LLM） を開発
商用LLMプロバイダーはノルウェー語LLMを開発していない現状
英語中心のグローバルLLM ではノルウェーの歴史・ニュース・文化的背景を十分に理解できない課題
ノルウェー文化省より 主権的AI（LLM）構築 を委託
図書館は国内最大のデジタル書籍・新聞・ウェブ・放送コンテンツコレクションを保有
法定納本制度により全出版物・放送コンテンツの収集・保存義務
ノルウェー新聞社との合意で 著作権付きコンテンツのLLM訓練利用 を実現
2005年からコレクションのデジタル化を推進、 20PBのユニークデータ を3-2-1形式（3コピー・2媒体・1オフサイト）で保存、合計約 60PB 規模
データ形式は生テキスト・音声・動画・静止画・ウェブ等多様、 OCRスキャン やメタデータ生成・API提供も実施

AI訓練データパイプラインとストレージ構成

データの大部分は ディスク＋テープアーカイブ による保存システムで管理
AI訓練システムへのデータ移行 がプロジェクトの主要課題
ボトルネックは計算能力ではなく、 データ品質・クリーニング・パイプラインスループット
主な処理段階
- 社内計算環境 ：Nvidia DGX H200システム、384コアCPUクラスター、複数のHuawei OceanStor Doradoオールフラッシュアレイ（合計2PB）
- 低レイテンシーなフラッシュストレージ によるデータパイプライン・訓練準備
- パイプライン処理内容：データ取り込み、クリーニング、重複排除、フォーマット正規化、検証、準備
パイプライン通過後のデータは ノルウェー国立スーパーコンピュータ Sigma2 Oliviaシステム で訓練実施
- Oliviaシステム：HPE Cray Supercomputing EX、448GPU、64,512CPUコア、5.3PB Cray ClusterStor E1000ストレージ

アーカイブとAIパイプラインストレージの課題

60PBの保存システム は耐久性・コスト重視で高速IOには不向き、高レイテンシー設計
AIパイプラインストレージ は高スループット・低レイテンシー・並列データIO最適化
PBスケールのデータセットをアーカイブからAIパイプラインへ移動するノウハウ不足
チーム独自で方法を模索しながらシステム構築

継続的な学びと今後の課題

評価：主権ノルウェー語LLMを評価する標準ツールが存在せず、独自ツールを開発中
- ノルウェー語の二つの公用文語、方言、多様な歴史的変遷への対応
ガバナンス ：主権LLMのアクセス管理・利用範囲の決定は機関・政治的課題
オーケストレーション ：保存アーカイブ＋オンプレAI環境＋国立スーパーコンピュータの三者連携の最適化

国際的な意義と示唆

Huaweiストレージ が欧州市場で重要な役割を果たしている事例
主権的・地域言語LLM開発を目指す国々への参考事例
AIは構築者だけでなく、文化・歴史の「管理者（custodian）」が必要 であるという示唆

Hackerたちの意見

彼は、自国の言語を持つ国が、その言語で訓練された主権LLMを持たない場合、グローバルに訓練された英語話者のLLMに比べて不利だと主張した。英語のLLMは、その国の歴史やニュース、文化についてローカル言語で書かれたことを知らないからね。これが本当かどうかは分からないけど、今は真実っぽく聞こえて資金が得られれば、それが通用する時代なんだろうね。

└

文化的な理由を挙げてきたけど、ケベックや北欧、フランス、ロシアなどではこれがどれだけ強いか、君には想像もつかないよ。

ハスネスが言ったように、ノルウェーは小さな国で、すべての非英語圏の国が直面する問題を解決している。自国の言語や文化、歴史を反映したAIをどうやって作るか？AIには、ただのビルダーじゃなくて、守護者が必要なんだ。残念ながら、ほとんどの場合、そんなことはできないと思う。強い政治的意志が必要だけど、少なくとも私の周りではそれを一致させるのは基本的に不可能に思える。コストも高すぎるし、そういう地元の代表性に関心を持つ人は、外国企業に実装させることに全く問題ないか（結局、バスク語でChatGPTを使えるしね）か、AIそのものに反対している人が多い。

└

ノルウェーがアメリカの研究所に、トレーニング用のキュレーションされたデータセットを作る目的でアプローチしたら、絶対にトレーニングの扉を開けてもらえると思うし、そのモデルは国内でできることを軽く超えるだろうね。ただ、画面越しにあなたの気持ちが伝わってくるのもわかるよ。

└

ノルウェーの場合、コストが本当に高すぎるかどうかは議論の余地があると思う。彼らは小さいけど非常に裕福な国だからね。結局のところ、彼らは現在、世界中の上場企業の1.5%に相当する資産を持っているんだ、彼らの国家資産ファンドの投資を通じて。

オリビアシステムは、448個のGPUと64,512個のCPUコアを持つHPE CrayスーパーコンピューティングEXシステムだ。この貧弱なハードウェアで主権LLMを訓練するのは、オープンソースモデルのLORAを使うのとは大きな間違いで、潜在的な警告サインに思える。これらの人々が完全なLLMを訓練するためのリソースを持っているとは思えないので、そう主張するのは、LLMを有用にするつもりがないのではないかと疑ってしまう。つまり、誰のお金を無駄にしているのか、そしてその理由は何なのかという疑問が生じる。

└

彼らが今アクセスできるのはそれだけだよ。プロジェクトが進むにつれて、将来的には変わると思うけど。どうするつもり？適切なハードウェアが揃うまで待ってやめるべきだって？

└

DeepSeekは2k H800くらいでトレーニングしたって言ってるけど、これは約0.5k GH200だよ…無視できる数字じゃない。確かに、スケールで提供するわけじゃないけど、それがポイントじゃないよね？「ベースモデルをファインチューニングする」と「これは本当に良い初期化だ」という境界線は、スケールが大きくなるとかなり曖昧になるし。全体的に見て、ちょっと傲慢な意見だと思う。

└

外部の誰かにとっては役に立たないかもしれないけど、目標の一つは組織内での学習（つまり、LLMを構築する知識を組織に埋め込むこと）かもしれない。名目上は国立図書館が背後にいるけど、この記事によれば、彼らはNO素材を法的に所有して使えるから選ばれたんだと思う。関連する大学などの研究者がプロセスに関わるんじゃないかな。

└

一番の問題は、実際に利用できるトレーニングデータだよ。彼らはすでに10b未満のモデルでファインチューニングや完全にゼロからの実験を行っている。最後に確認したときは、完全にゼロからの方が言語をより良く捉えていた。

└

彼らは以前にPoCファインチューニングを成功させているから、次のステップは本格的なLLMのトレーニングだね。彼らが何か価値のあるものを目指しているとは思えない。ファインチューニングはすごく壊れてたし。やり方を持つことが重要なんじゃないかな。超役に立つとは思わないけど、研究資金で誰が何をするかを決めるのは私じゃないし。試したファインチューニングの一つは、人間がチャットで感情を表現するのをバカにしてたし、しょっちゅうだった。もう一つのファインチューニングは、自分が医者だと妄想して、赤ちゃんがひどい病気にかかってるって言ってた。毎回「hei」って書いただけなのに（多分この行動を引き起こした中立的なシステムプロンプトがあったけど）。オリビアは今の用途には十分大きいと思う。私の意見では、最新の情報を追って、今はハードウェアにあまりお金を使わない方がいい。

└

この貧弱なハードウェア > 何を無駄にしてるんだ - なんで？ i18nの言語モデルって、フロンティアラボがリソースをたくさん使ってる分野じゃないの？（ノルウェー語に関しては特に）ノルウェー語のコンテンツのコーパスは、大きなクラスターを必要としないかもしれないし、たとえ必要だとしても、これが図書館ができる最善のことだと思う。ノルウェー語モデルに投資しているのは他に誰もいないから、これ以上のものはないはず。SOTAモデルは国立図書館が持っている質の高いコンテンツにアクセスできないの？記事では特に新聞とのライセンスについて言及していて、図書館は自分のコンテンツアーカイブにアクセスできるんだ。英語とノルウェー語はあまり関係のない言語ファミリーだから、LoRAが最適なアプローチじゃないかもしれないね。ターゲット言語の文法や語彙が英語からどれだけ離れているかによって、LoRAのローカリゼーションがどれだけうまくいくかについての研究が発表されているか気になるな。こういうプロジェクトは通常、複数の目的があって、SOTAプロジェクトを構築するだけでなく、基盤となる地元の才能を育てるためでもあるんだ。大学が衛星を立ち上げるのと似てるね。

Hacker Newsで議論の続きを見る

ハクソク