世界を動かす技術を、日本語で。

EuroLLM: 欧州で開発された、全24の公式EU言語をサポートするLLM

概要

  • EuroLLM は、ヨーロッパ発の大規模言語モデル
  • EU公式24言語 すべてに対応した多言語サポート
  • オープンソース で公開、研究者・組織・市民が自由に利用可能
  • 高性能 な言語タスク処理能力と拡張性
  • 主要大学・企業による 共同開発 プロジェクト

EuroLLMの特徴

  • ヨーロッパ発 の大規模言語モデル開発プロジェクト
  • 24のEU公式言語 すべてをカバーする多言語対応
  • 35言語・4兆トークン以上 の大規模データで事前学習
  • 9Bパラメータ のフラッグシップモデルEuroLLM-9B
  • EuroLLM 9B Base はタスクごとのファインチューニングが可能
  • EuroLLM 9B Instruct は指示追従・チャットタスク用に最適化
  • マルチモーダル 対応予定:画像・音声も理解可能に進化予定
  • Hugging Face 上でモデル提供、誰でも試用・利用可能
  • オープンソース :研究者・企業・市民が自由に利用・拡張
  • 高性能 :質問応答、要約、翻訳など多様な言語タスクで優れた性能

開発チームと関係機関

  • UnbabelInstituto Superior TécnicoUniversity of EdinburghUniversité Paris-Saclay など欧州主要大学・企業が連携
  • Horizon EuropeEuropean Research CouncilEuroHPC の支援を受けて開発
  • MareNostrum 5スーパーコンピュータ でトレーニング実施
  • 欧州デジタル主権 の強化とAIイノベーション推進をミッションとする

主な研究者

  • André Martins (Unbabel VP of AI Research/Instituto Superior Técnico准教授):機械学習・自然言語処理の専門家、ELLIS Societyフェロー
  • Alexandra Birch (Aveni.ai共同創業者/University of Edinburgh准教授):多言語NLP・翻訳・倫理・説明可能性研究
  • Nuno Guerreiro (Unbabel Senior Research Scientist):機械翻訳評価・エラー検出・LLM開発
  • Pierre Colombo (Université Paris-Saclay准教授/Equall.AI CSO):AI安全性・LLM応用、AAAI 2022最優秀学生論文賞受賞

EuroLLMの公開・利用

  • Hugging Face でモデル配布、誰でもダウンロード・ファインチューニング可能
  • オープンソース ライセンスで研究開発・商用利用も柔軟
  • EuroLLM 1.7B 技術レポートやリリース記事も公開
  • EuroHPC のHPCリソース、 Horizon Europe RIAプロジェクトUTTER の助成による開発推進

EuroLLMの今後

  • 画像・音声対応 のマルチモーダル機能追加を計画
  • 欧州発イノベーションの推進力 として、誰もが利用・発展できる基盤の提供
  • AI主権・多言語社会 にふさわしいAI技術の進化・普及を目指す

Hackerたちの意見

興味がある人のために、24の公式言語はブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイルランド語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語だよ。面白いことに、マルタ語は唯一のアフロ・アジア系の言語なんだ。ハンガリー語、フィンランド語、エストニア語はウラル語族の3つの言語。あとは全部インド・ヨーロッパ語族で、ギリシャ語が唯一のヘレニック言語、アイルランド語が唯一のケルト語、残りはバルト語、スラブ語、イタリック語、またはゲルマン語だね。(最初はバルト・スラブ語族って言ったけど、その言葉のいくつかの意味合いには今まで気づいてなかったよ。バルト語とスラブ語は共通の起源を持ってるけど、それはすごく昔のことだね)

マルタ語を読む、書く、話すことができるよ。言語について興味があったら質問してね。

リトアニア語とラトビア語はバルト語派だよ。スラブ語とは関係ないし…

明日、オランダで選挙があるんだけど、2つの政党がフリジア語をそのリストに追加することを提案してるよ。 https://neerlandistiek.nl/2025/10/kies-voor-taal/ 早くそのモデルの再訓練を始めた方がいいね。

フラマン語?フラマン語のテレビ番組(ホテル・ボー・セジュール[0])を見たことがあるから、そんなにお金を投資する価値があるってことだよね。バスク語はどう?それはちょっと物議を醸す? [0] https://en.wikipedia.org/wiki/Hotel_Beau_Séjour

ノルウェー語もモデルカードに含まれてるよ: https://huggingface.co/utter-project/EuroLLM-9B

マルタ語は、興味深いことに唯一のアフロアジア語系の言語なんだ。正確にはセム語だよ。 https://en.wikipedia.org/wiki/Semitic_languages

同じこと考えてた。なんでアメリカや中国みたいな国からだけ、そんなに優れたモデルが出てくるんだろう?フランスのミストラル以外、ヨーロッパの国はなんでリストに入ってないの?インド、日本、韓国の企業が、中国の企業みたいに有望な新モデルに近づくのはなんでこんなに少ないんだろう?

それって意味あるの?アメリカや中国のモデルを使って、必要に応じて調整すればいいじゃん。同じものを作るために何百万も使う意味ってどこにあるの?

フロンティアモデルの訓練は高くつくし、アメリカと中国だけが数百億ドルを調達できる資本構造を持ってるからだよ。

「なぜ?」っていうのは妥当な質問だけど、驚いてる?ヨーロッパはテクノロジーで常に遅れをとってるからね。ヨーロッパの人口はアメリカの約1.3倍、GDPは約75%だけど、EUのテクノロジーの出力はアメリカのテクノロジー出力のほんの小さな割合に過ぎない。70%、50%、30%、20%の話をしてるわけじゃない。ほんのわずかなんだ。 > アメリカの7大テクノロジー企業、アルファベット(グーグル)、アマゾン、アップル、メタ、マイクロソフト、Nvidia、テスラは、ヨーロッパの7大企業の20倍の規模で、収益は10倍だよ。 https://eqtgroup.com/thinq/technology/why-is-europes-tech-in... 「なぜ?」っていうのは良い質問だけど、テクノロジーの格差を考えると、ヨーロッパからのLLMにおいて大きな競争は期待できないと思う。競争力のないモデルが1つあるだけっていうのが、ほぼ予想通りだね。

EUはAIに関する900ページ以上の法律を作って、「AIを規制する最初の国だ」と自画自賛してるけど(実際はそうじゃなくて、中国にはもっと前にAI法があって、しかも2ページしかない)。

ヨーロッパの市民として言うと、結局は資本へのアクセスに尽きると思う。EU/EEAは国じゃないし、市場はちょっと分断されてる。大手はイギリス、フランス、ドイツで、他の国はアメリカみたいにお金にアクセスできない。みんなやりたいと思ってるけど、ガラスの天井があるんだよね。だから、大きな機関同士のコラボがあって、Horizonみたいな学術的な資金を活用しようとしてるけど、製品にはうまく転換できない。

フロンティアモデルって、もうすでにこれらの言語を使えるんじゃないの?特定の言語のサポートは組み込む必要ないよ。LLMは多言語データで訓練されてるから、全ての言語をサポートしてるんだ。

多言語データで訓練されているから。でも、政府公認のEUの自国データでは訓練されていないんだよね。

うーん、データセットによるかな。メインの言語に偏ってることが多いから。例えば、チェコ語とスロバキア語をほぼいつも混同してて、チャットの途中で入れ替えたりすることも多いよ。

いや、英語から離れると能力が落ち始めるよ。それに、T&SやAIの安全性は翻訳だけでは解決できない。レキシコンや例のデータセットが必要なんだ。例えば、マレーシアの誰かがドーハでビデオゲームをしている人のアラビア語をラベル付けするのに使われるけど、文化的なコンテキストが欠けてる。偏りの度合いを示す最良の指標はこれから来てるよ: https://cdt.org/insights/lost-in-translation-large-language-... それに基づいているのはこれ: https://stats.aclrollingreview.org/submissions/linguistic-di... 知ってる限りでは、LLMの能力は英語から離れると落ちるし、多くの国が自国のLLMを構築するか、そのオプションを検討しているところだよ。

いや、それがトレーニングの仕組みじゃないよ。特定の言語に例があるだけじゃなくて、どれだけの例があって、他の言語との比率も関係してる。英語はほとんどのアメリカのモデルで他の言語を圧倒してるから、他の言語のパフォーマンスは英語に比べて劣ってしまうんだ。

ネイティブじゃないから、英語以外の言語に翻訳された感じがする。たまにフランス人がLLMの使う非慣用的なフランス語について文句を言ってるのを見かけるけど、これって多くのインド・ヨーロッパ語が関わってるから、フランスだけの問題じゃないと思う。

EuroLLMチームは、Unbabel、Instituto Tecnico Lisbon、エディンバラ大学、Instituto de Telecommunicacoes、パリ・サクレ大学、Aveni、ソルボンヌ大学、Naver Labs、アムステルダム大学など、AIのトップクラスの頭脳を集めている。 >ヨーロッパは、EuroHPC共同事業(EuroHPC JU)によって管理される大規模な公共スーパーコンピュータネットワークを持つ唯一の大陸だ。EuroHPC JUからスーパーコンピュータへのアクセスを受けた瞬間、私たちはすぐに作業に取り掛かる準備ができていた。すぐに小さなモデルを開発し、6ヶ月も経たずに2つ目のモデルが完成した。 [1] https://www.eurohpc-ju.europa.eu/eurohpc-success-story-speak... 物理シミュレーションの計算を再利用しているんだ。

LLMを使って翻訳したい場合、ベースモデルとインストラクションチューニングされたバージョンのどちらを使うべき?チャットモデルを使った時は、シンプルに「これを翻訳して: 」ってやって、結果はまちまちだったんだよね。

9BモデルのEuroLLMみたいなもので、ベースモデルのファインチューニングは結構現実的だよ。サンプルはあまり必要なくて、300個の高品質な例があればいい結果が出せるし、GPUの時間もレンタルGPUインスタンスで管理しやすい。ベースモデルと「English: {text}\n{language}:」みたいなテンプレートを使って、ちょっとフィルターとリトライのロジックを加えればうまくいくよ。

タイトルに「(2024)」が抜けてる。9Bモデルは去年の12月にリリースされたよ[0]。0: https://sites.google.com/view/eurollm/home

税金でのイノベーションにはちょっと懐疑的なんだよね。いくつかのホライズングラントを見たことがあるけど、市民としてはそれにお金を払いたくないなぁ。でも、残念ながらオプトアウトできないんだよね。

税金で資金提供されたイノベーションとしてテスラはどう? https://www.energy.gov/lpo/tesla

税金で賄われるイノベーションにはちょっと懐疑的なんだよね…市民としては、そういうのにお金を払いたくないけど、残念ながら選択肢がない。いくつかの要素があるけど、今のところ、民間資金によるイノベーションも大して変わらないし、全体的に見ても、その差はあまりプラスには働いてないと思う。

アメリカの発見の大半は、税金を使っている移民によるものだよ。つまり、大学の科学者たちね。メディアは企業に功績を与えがちだけど、実際には企業は応用するだけで、最近は新しい科学を作ることはほとんどない。

これってどういう仕組みなの?24の別々の言語で訓練するのは、ほとんどの点で悪いように思える。データが24に分かれるだけだし、すごく非効率的だと思う。やっぱり一番大きな言語(英語)で訓練して翻訳する方がいいよね。これだと英語に関連したバイアスが入ると思うし、具体的に何を意味するのかもっと知りたいな。でも、どちらにしても、そんなに大きなデータの分割で競争力のあるモデルは作れないと思う。

複数の言語でモデルをトレーニングすれば、そのモデル自体を翻訳に使えるよね。ユーザーの言語で自然に応答できるようにもなるし。

いや、全言語でトレーニングする方がいいよ。24のパーティション?これらのモデルとその潜在表現を過小評価しすぎだよ…簡単に転送できるから。

ヨーロッパの政策立案者たちが、テクノロジー集約型産業をどうやって活性化するか全然理解してないのがマジで驚き。イノベーションに対する「勝者を選ぶ」助成金スタイルのアプローチの結果を間近で見たことがある人なら、ここで何がうまくいかないか分かるはず。あと、ヨーロッパの「スパコン」クラスターへのアクセスについての話を読むのも面白いね。 https://x.com/levelsio/status/1981485945745788969

EUの詐欺は、トランプのような露骨なクリプトのポンプ&ダンプよりもひどい。マジで嫌悪感を抱く。少なくともトランプ政権はみんなの401kを盛り上げる良心があったから…なんでこんなにイライラするのか考えてるんだけど、EUがやること全てが信じられないほどダメだからだと思う。詐欺すらできない、そんなに無能なんだよ。ちゃんと盗むことすらできない。ほんとに品がなくて、感覚を冒涜してる。

でも、AI競争に参加したいなら、本当に重要なのは、ヨーロッパをAIビジネスを始めるのに極めて魅力的な場所にすることだよ。規制の障害を取り除いて、スタートアップに税金の割引を与えるべき。まずは世界的に競争できるビジネスを作らせて、十分な利益(例えば年間1億ドル)を上げたら、徐々に規制を追加していけばいい。多くのEUのビジネスオーナーと話すと、特にテクノロジー分野では、制約要因は規制じゃない。これが一番の理由だって言うのは、もう飽き飽きするほどの決まり文句だよ。皮肉なことに、中国はソフトウェアに関しては、政府が承認しないとビジネスが立ち行かないから、ある意味で規制の負担が大きい。Klarnaがそこでは立ち上がらなかっただろうし、もっと早く閉鎖されてたと思う。EUでは、今になってやっと一部の政府がビジネスモデルに関する弱い対策について話し始めてるけど、私は一度も「中国のソフトウェア企業は規制の負担で立ち上がれない」なんて聞いたことがない。EUの規制について騒いでる人たちは、アメリカのテクノロジーに対する保護主義的な措置を嫌ってる人たちでもある。これまた皮肉なことに、中国のソフトウェア産業は、アメリカのテクノロジーに対する10倍強い保護主義的措置のおかげで繁栄している。韓国もそうで、彼らの保護主義は中国ほど強くないけど、EUと中国の中間くらいだよ。だから、EUで役立つのは、もっとテクノロジーの保護主義だと思う。Pieter Levelsは結局、影響力のある人であって、真剣な創業者じゃない。

EUの助成金プロセスは楽しくないけど、Levelsはちょっと自意識過剰なところがあると思う。彼は、例えばXで問題があったら、エロン自身が返信してくるだろうって言ってた。彼はマイクロSaaSプロジェクトで影響力を収入に変えるのが得意だけど、国家が支援するスーパーコンピュータで広告収入を得るブラウザゲームを運営するのが、助成金プログラムの本来の目的だとは思えない。

いや、そういうわけじゃないんだ。彼らは基礎研究を支援しようとしてるけど、限られたリソースでそれを達成するのが難しい。AIのきれいな画像を生成する会社を作りたいっていうランダムな人はターゲットじゃないし、正当に却下されたんだよね。正直、Pieterが描く夢のシナリオで、彼がどうにかこれらのリソースに適合するっていうのも、テック業界をスタートさせるのには役立たないし、アメリカでもそういうわけじゃない。実際に役立つのは、ヨーロッパの政府(少なくともPieterの出身国オランダの政府)がやってるスタートアップへの資金提供なんだ。オランダでスタートアップの創業者なら、ほとんどのエンジェルが政府とマッチングファンドの契約を持ってる。これはアメリカに追いつく賢い方法だよ。アメリカのスタートアップが政府から無料でコンピュータをもらってると思う?ほとんどの場合、補助金すらもらえないよ。彼らが得てるのは、もっと資本があるからこその良い資金で、それを投資家に手助けするのが解決策なんだ。

これらの政策の目的は勝者を選ぶことなの?それとも、クリエイターをスキルアップさせて、ビッグテックでは得られない経験を与えることで経済を刺激することなの?アメリカでは、元Googleの人がスタートアップを立ち上げるかもしれないけど、ヨーロッパにはFAANGに相当するものがない。(ヨーロッパ全体の企業はアメリカ全体の企業ほど簡単じゃない)たとえスパコン自体が「失敗」しても、実際の目標は経済への二次的な影響なの?(アメリカでも、今の体制の中で勝者と敗者を選ぶことは結構やってるけどね)

それいいアイデアだね — そんな多言語モデルをトレーニングするのは野心的だ。でも、実際に英語やフランス語と比べて小さいEUの言語をどれだけうまく扱えるか気になるな。もし本当にそれができれば、アクセシビリティにとって大きな勝利だね。