世界を動かす技術を、日本語で。

ノルウェーの2ペタバイトのHuaweiフラッシュストレージとLLMトレーニング

概要

  • ノルウェー国立図書館が ノルウェー語対応LLM の開発を推進
  • Huawei OceanStor Dorado の2PBフラッシュストレージをAI訓練データパイプラインに活用
  • 国内最大のデジタル文化遺産コレクションを強みとする
  • データ品質・パイプライン処理が主な課題
  • 評価・ガバナンス・オーケストレーション に関する継続的な学び

ノルウェー国立図書館によるノルウェー語LLM開発プロジェクト

  • ノルウェー国立図書館(Nasjonlbiblioteket) がノルウェー語に特化した 大規模言語モデル(LLM) を開発
  • 商用LLMプロバイダーはノルウェー語LLMを開発していない現状
  • 英語中心のグローバルLLM ではノルウェーの歴史・ニュース・文化的背景を十分に理解できない課題
  • ノルウェー文化省より 主権的AI(LLM)構築 を委託
  • 図書館は国内最大のデジタル書籍・新聞・ウェブ・放送コンテンツコレクションを保有
  • 法定納本制度により全出版物・放送コンテンツの収集・保存義務
  • ノルウェー新聞社との合意で 著作権付きコンテンツのLLM訓練利用 を実現
  • 2005年からコレクションのデジタル化を推進、 20PBのユニークデータ を3-2-1形式(3コピー・2媒体・1オフサイト)で保存、合計約 60PB 規模
  • データ形式は生テキスト・音声・動画・静止画・ウェブ等多様、 OCRスキャン やメタデータ生成・API提供も実施

AI訓練データパイプラインとストレージ構成

  • データの大部分は ディスク+テープアーカイブ による保存システムで管理
  • AI訓練システムへのデータ移行 がプロジェクトの主要課題
  • ボトルネックは計算能力ではなく、 データ品質・クリーニング・パイプラインスループット
  • 主な処理段階
    • 社内計算環境 :Nvidia DGX H200システム、384コアCPUクラスター、複数のHuawei OceanStor Doradoオールフラッシュアレイ(合計2PB)
    • 低レイテンシーなフラッシュストレージ によるデータパイプライン・訓練準備
    • パイプライン処理内容:データ取り込み、クリーニング、重複排除、フォーマット正規化、検証、準備
  • パイプライン通過後のデータは ノルウェー国立スーパーコンピュータ Sigma2 Oliviaシステム で訓練実施
    • Oliviaシステム:HPE Cray Supercomputing EX、448GPU、64,512CPUコア、5.3PB Cray ClusterStor E1000ストレージ

アーカイブとAIパイプラインストレージの課題

  • 60PBの保存システム は耐久性・コスト重視で高速IOには不向き、高レイテンシー設計
  • AIパイプラインストレージ は高スループット・低レイテンシー・並列データIO最適化
  • PBスケールのデータセットをアーカイブからAIパイプラインへ移動するノウハウ不足
  • チーム独自で方法を模索しながらシステム構築

継続的な学びと今後の課題

  • 評価 :主権ノルウェー語LLMを評価する標準ツールが存在せず、独自ツールを開発中
    • ノルウェー語の二つの公用文語、方言、多様な歴史的変遷への対応
  • ガバナンス :主権LLMのアクセス管理・利用範囲の決定は機関・政治的課題
  • オーケストレーション :保存アーカイブ+オンプレAI環境+国立スーパーコンピュータの三者連携の最適化

国際的な意義と示唆

  • Huaweiストレージ が欧州市場で重要な役割を果たしている事例
  • 主権的・地域言語LLM開発を目指す国々への参考事例
  • AIは構築者だけでなく、文化・歴史の「管理者(custodian)」が必要 であるという示唆

Hackerたちの意見

彼は、自国の言語を持つ国が、その言語で訓練された主権LLMを持たない場合、グローバルに訓練された英語話者のLLMに比べて不利だと主張した。英語のLLMは、その国の歴史やニュース、文化についてローカル言語で書かれたことを知らないからね。これが本当かどうかは分からないけど、今は真実っぽく聞こえて資金が得られれば、それが通用する時代なんだろうね。

文化的な理由を挙げてきたけど、ケベックや北欧、フランス、ロシアなどではこれがどれだけ強いか、君には想像もつかないよ。

ハスネスが言ったように、ノルウェーは小さな国で、すべての非英語圏の国が直面する問題を解決している。自国の言語や文化、歴史を反映したAIをどうやって作るか?AIには、ただのビルダーじゃなくて、守護者が必要なんだ。残念ながら、ほとんどの場合、そんなことはできないと思う。強い政治的意志が必要だけど、少なくとも私の周りではそれを一致させるのは基本的に不可能に思える。コストも高すぎるし、そういう地元の代表性に関心を持つ人は、外国企業に実装させることに全く問題ないか(結局、バスク語でChatGPTを使えるしね)か、AIそのものに反対している人が多い。

ノルウェーがアメリカの研究所に、トレーニング用のキュレーションされたデータセットを作る目的でアプローチしたら、絶対にトレーニングの扉を開けてもらえると思うし、そのモデルは国内でできることを軽く超えるだろうね。ただ、画面越しにあなたの気持ちが伝わってくるのもわかるよ。

ノルウェーの場合、コストが本当に高すぎるかどうかは議論の余地があると思う。彼らは小さいけど非常に裕福な国だからね。結局のところ、彼らは現在、世界中の上場企業の1.5%に相当する資産を持っているんだ、彼らの国家資産ファンドの投資を通じて。

オリビアシステムは、448個のGPUと64,512個のCPUコアを持つHPE CrayスーパーコンピューティングEXシステムだ。この貧弱なハードウェアで主権LLMを訓練するのは、オープンソースモデルのLORAを使うのとは大きな間違いで、潜在的な警告サインに思える。これらの人々が完全なLLMを訓練するためのリソースを持っているとは思えないので、そう主張するのは、LLMを有用にするつもりがないのではないかと疑ってしまう。つまり、誰のお金を無駄にしているのか、そしてその理由は何なのかという疑問が生じる。

彼らが今アクセスできるのはそれだけだよ。プロジェクトが進むにつれて、将来的には変わると思うけど。どうするつもり?適切なハードウェアが揃うまで待ってやめるべきだって?

DeepSeekは2k H800くらいでトレーニングしたって言ってるけど、これは約0.5k GH200だよ…無視できる数字じゃない。確かに、スケールで提供するわけじゃないけど、それがポイントじゃないよね?「ベースモデルをファインチューニングする」と「これは本当に良い初期化だ」という境界線は、スケールが大きくなるとかなり曖昧になるし。全体的に見て、ちょっと傲慢な意見だと思う。

外部の誰かにとっては役に立たないかもしれないけど、目標の一つは組織内での学習(つまり、LLMを構築する知識を組織に埋め込むこと)かもしれない。名目上は国立図書館が背後にいるけど、この記事によれば、彼らはNO素材を法的に所有して使えるから選ばれたんだと思う。関連する大学などの研究者がプロセスに関わるんじゃないかな。

一番の問題は、実際に利用できるトレーニングデータだよ。彼らはすでに10b未満のモデルでファインチューニングや完全にゼロからの実験を行っている。最後に確認したときは、完全にゼロからの方が言語をより良く捉えていた。

彼らは以前にPoCファインチューニングを成功させているから、次のステップは本格的なLLMのトレーニングだね。彼らが何か価値のあるものを目指しているとは思えない。ファインチューニングはすごく壊れてたし。やり方を持つことが重要なんじゃないかな。超役に立つとは思わないけど、研究資金で誰が何をするかを決めるのは私じゃないし。試したファインチューニングの一つは、人間がチャットで感情を表現するのをバカにしてたし、しょっちゅうだった。もう一つのファインチューニングは、自分が医者だと妄想して、赤ちゃんがひどい病気にかかってるって言ってた。毎回「hei」って書いただけなのに(多分この行動を引き起こした中立的なシステムプロンプトがあったけど)。オリビアは今の用途には十分大きいと思う。私の意見では、最新の情報を追って、今はハードウェアにあまりお金を使わない方がいい。

この貧弱なハードウェア > 何を無駄にしてるんだ - なんで? i18nの言語モデルって、フロンティアラボがリソースをたくさん使ってる分野じゃないの?(ノルウェー語に関しては特に)ノルウェー語のコンテンツのコーパスは、大きなクラスターを必要としないかもしれないし、たとえ必要だとしても、これが図書館ができる最善のことだと思う。ノルウェー語モデルに投資しているのは他に誰もいないから、これ以上のものはないはず。SOTAモデルは国立図書館が持っている質の高いコンテンツにアクセスできないの? 記事では特に新聞とのライセンスについて言及していて、図書館は自分のコンテンツアーカイブにアクセスできるんだ。英語とノルウェー語はあまり関係のない言語ファミリーだから、LoRAが最適なアプローチじゃないかもしれないね。ターゲット言語の文法や語彙が英語からどれだけ離れているかによって、LoRAのローカリゼーションがどれだけうまくいくかについての研究が発表されているか気になるな。こういうプロジェクトは通常、複数の目的があって、SOTAプロジェクトを構築するだけでなく、基盤となる地元の才能を育てるためでもあるんだ。大学が衛星を立ち上げるのと似てるね。

それは疑問を呼ぶね、誰のお金を無駄にしてるのか - なんで? ノルウェーは、現在のLLM技術を発明した国を含め、地球上の99%の国よりも国としてうまく運営されているから、彼らには疑いの余地を与えたいね。

「この貧弱なハードウェアで主権LLMを訓練する」ノルウェーはO[MS|Apple|など]に相当する主権ファンドを持っているけど、実際には現金であって魔法の粉じゃない。イギリスが北海の石油利益を無駄にしている間、ノルウェーはそれを蓄えていたんだ。だから、もしLLMやAIの壮大な夢が本当に実現するなら、ノルウェーは必要なものを買うために大量の現金を投入できる。結局、現金が王様だからね。ここで説明されているものはただの図書館システムだと思う。私の国(イギリス)の図書館システムにもそんなリソースがあればいいな。あなたが正しい質問をしているとは思えない。「貧弱」と言うと、私は「リソースが豊富な組織からのかなり印象的なPoC」と見えるよ。あなたはトマトと言うけど…

それだけのリソースがあれば、Olmo 3のレシピみたいなものを作れるけど、自分たちのデータを優先して、特定のタスクのためにポストトレーニングをする感じかな。もし自分たちの埋め込みモデルを作って、ライブラリのすべてをインデックス化して、そのデータをクエリしながら歴史的、文化的、法的、戦略的な質問に答えるようにモデルを訓練したら…かなり面白いし、役立ちそうだね。Reactコードを出すのではAnthropicに勝てないけど、あれを複製する理由も特にないしね。

私はノルウェー人で、ほぼ毎日国立図書館を使ってテキストを検索してる。彼らのユーザーインターフェース(と機能)は、本当に素晴らしいよ。大量のテキストを検索するのに最適なんだ。

本当に素晴らしいよ。でも、アクセスできるコンテンツにもう少し制限が少なければいいのにと思う。(多くはノルウェーのIPアドレスからしかアクセスできないから、私がノルウェー出身だけどイギリスに住んでる理由の一つはVPNを維持してることだし、もう一つは図書館や研究機関のIPアドレスからしか利用できないデータがあるから。一般的には利用可能なデータはまだたくさんあるけどね。)

ユニバーサルな検索エンジンがないのはほんとにイライラするよね。なんでテレビの字幕の中を検索できないの?

それに関して、実際にデータを使用する許可を求めて、企業が「はい」と言ったんだ。

それはおかしいよ。2PBのフラッシュは約20万ドルだし、多くの個人が手に届く範囲だよね。でも、そこまでのストレージは必要ないかもしれないから、そういう意味ではあり得るのかな。

現在の価格でこの規模・パフォーマンスなら、もっと1百万ドルくらいだと思う。HDDアレイを使えば、たぶん5万ドルくらいかな。

あなたの数字はちょっとずれてるけど、要点は変わらないよ。2PBなんて大したことないし、ニュースバリューもないと思う。これの何が特別なの?

俺も最初に思ったのは「それって…多いの?」だね。最近は6PB(244TB * 24)を一つのボックスに入れられるからね。

もしかしたら、ノルウェーはトレーニングデータを作って、すべてのモデルビルダーと(無料で)共有するべきなんじゃないかな。フロンティアモデルにノルウェー語や文化を学ばせる方が、ここで目指しているゴールに到達するためのより良い(または追加の!)方法に思える。

フロンティアモデルはノルウェー語をちゃんと理解してるよ。ノルウェーの方言にも適応できるし、古いノルウェー語も結構上手に真似できる。例えば、1911年の小説「De knyttede næver」をノルウェー語の正書法で説明させたんだけど、ちゃんとできてた。ただ、ノルウェーの文学や文化、歴史の理解が足りないのが残念。これについては「De knyttede næver」を調べないといけなかったし、これは当時のベストセラーの一つだったから、私が何かを得るまでに時間がかかった。ChatGPTの方が良いし、特に思考モードでは詳細な要約をしてくれる。今はあまり知られていないけど、著者は数十年にわたって有名な新聞記者だったし、その小説シリーズは結構知られてる。例えば、主人公の名前を取ったノルウェーの歌手もいるし、著者の政治的見解やそれが小説にどう影響したかについて、ノルウェーの新聞や本で何十年も取り上げられてきたから、かなりの知識のギャップがあるのが分かると思う。国立図書館のデータセットがもっとアクセスしやすくなればいいと思うけど、ここでの大きなポイントは、著作権で保護されたデータを使う契約があるってことだね。それに制限があるから、著作権が切れたデータを公開するだけでも素晴らしいスタートになると思う。

この発言はどれくらい真実なの?「自国の言語を持っていて、その言語で訓練された主権LLMがない国は不利だ。なぜなら、グローバルに訓練された英語を話すLLMは、その国の歴史やニュース、文化を理解していないから。」大手企業は、言語や質に関係なく、基本的に手に入るものはすべて訓練していると思っていたから、彼の意見は初期のLLMに関する意見のように聞こえる。

ノルウェー語の知識をLLMに持たせたいなら、最も明白な方法は良いトレーニングデータセットを作って、それを広く公開することじゃない? 自分のモデルを訓練するためにお金をかける理由は何?特に、それが最先端のモデルより劣るものになるのに。

今のモデルは主要な言語や文化にはかなり流暢だから、「どんな」っていう条件には当てはまらないよ。パフォーマンスはほとんど影響を受けないか、時にはむしろ良くなることもある。ただ、英語のパターンが他の言語のネイティブなパターンに微妙に入り込むことはあるね。リソースが少ない言語は状況が全然違うけど、それを改善するには新しいモデルじゃなくてもっとデータが必要なんだ。

全然違うと思うよ。ノルウェー語はあんまり話せないけど、スウェーデン語は話せるから、ノルウェー語もほとんど理解できる。試したモデルはどれもスウェーデン語に完璧に対応してくれたよ。ノルウェー語も同じようにできてるとは思うけど、驚かないよ。

そうだね、アラインメントは「悪くならないようにする」ことが全てだから、簡単な仕事じゃないよね… 中国のLLMが1989年の天安門事件をCIAが仕組んだ事件として描写するのを想像するだけでゾッとするよ。

記事にあるように、ノルウェーの国立図書館には、何十年も前から出版されたり放送されたりしたノルウェー語のほとんどすべてが収められたデータベースがあるんだ。記事に書かれているデータセットの説明からすると、OpenAIなどがそれに完全にアクセスするのは簡単じゃなさそうだね。

外国のLLMはノルウェー国立図書館で訓練されてないだろうね。私はそこで(家系図のために普通のキーワード検索で)よく見つけることがあるけど、検索エンジンや言語モデルは知らない情報だよ。もちろん、興味のある情報はAIがスクレイピングできる場所に置くけど、面白いものを全部引き出すにはすごく時間がかかるだろうね。

確かにそうだね。英語は他の言語に比べて訓練が異常に豊富だから。

マリウス・フスネス、図書館(ナショナルライブラリ)のITプラットフォーム責任者が、パリでのHuaweiのIDフォーラム2026でこのプロジェクトについて語った。彼は、商業的なLLMプロバイダーがローカル(ノルウェー語)のLLMを開発していないと主張した。彼は、自国の言語を持ちながら、その言語で訓練された主権LLMを持たない国は不利だと述べた。なぜなら、グローバルに訓練された英語を話すLLMは、その国の歴史やニュース、文化をローカルな言語で理解していないからだ。マリウス・フスネスがここで何を言ってるのか、あまり自信がないな。

補助金をもらうには十分に信憑性がありそうだね。

彼が何を言ってるかが重要だと思ってるのは間違いだよ。彼はポーションを作ってるんだ。その材料は流行の言葉、ぼんやりとした脅威、そしてもちろん彼が母国のために優雅に掌握するシンプルすぎる解決策だ。このポーションは強力で、頻繁に使われるから効果がなくなると思うかもしれないけど、そんなことはないよ!

ChatGPTとチャットしてると、アメリカ的な感じがすごく伝わってくるよね。母国語やスタイル、態度がアメリカ的だから、デンマーク語で話してもそれは変わらない。NetflixやHBOがスカンジナビアのテレビ番組を作るのに頼れないのと同じように、この分野でも自分たちでコンテンツを作る必要があるよね。時間が経てば、そういう技術も安く手に入るようになるだろうし。

彼の言う通りだけど、訓練コーパスだけの問題じゃないんだ。ターゲット言語に対する必要なバイアスに基づいて、部分文字列をより効率的にトークン化するトークナイザーの問題でもある。英語に特化したLLMは、他の言語よりも英語に対して強力なんだ。英語の一般的な単語(通常は1トークン以下)でAPIを呼び出すオンラインのAnthropicトークナイザーを試してみて、ノルウェー語の単語を使うと、2〜4トークン、時にはそれ以上になることがよくあるよ。タイ語のような言語は大きな不利を抱えてるし、コーパスの選択もターゲット言語に偏っていることが多いのは、そっちの言語の著作物を集めるのにもっとエネルギーが使われているからだよ。言語間で意味的に似た埋め込みの影響があるから、文化的なベースラインとは異なるセマンティックバイアスも生じるし、ファインチューニングはLLMの文化的表現に大きな影響を与える。これらはどれも軽視できない影響だよ。絶滅危惧言語のためのLLMを作る努力や、異文化モデルを使って強化する試みもたくさんあるけど、もしあなたの言語が十分に文書化されているなら、その言語と文化に特化したヘリテージLLMを作る理由は十分にあると思う。OpenAIやAnthropicに、自分たちのターゲットオーディエンスとのトレードオフの際にあなたの言語を優先させるのは、ちょっとおかしいよね。

ここにいる多くの人がマリウスを叩いて、言い換えた引用を深読みしすぎてる気がする。これは「主権AI」、つまりこれらのモデルを独立して構築・提供する能力のことなんだ。今、経営陣の間でホットなトレンドだし(特に私の大きな組織では)、確かにマッキンゼー的な胡散臭さもある。でも、彼らはOAIやAnthropicと競争しようとしているわけじゃないよ。ノルウェーやデンマーク、オランダのような場所は、歴史的なテキストや医療記録のデジタル化で非常に先を行っている。彼らは公共のインターネットでは利用できないため、ほとんど手つかずの巨大な宝の山を持っているんだ。彼らの文化に合わせたモデルを通じて価値を提供する機会がたくさんあるよ。「人々のために、人々によって」って感じかな?少なくとも、そういう見方もできるよね。