EuroLLM: 欧州で開発された、全24の公式EU言語をサポートするLLM

2025年10月28日原文(eurollm.io)

概要

EuroLLM は、ヨーロッパ発の大規模言語モデル
EU公式24言語 すべてに対応した多言語サポート
オープンソース で公開、研究者・組織・市民が自由に利用可能
高性能 な言語タスク処理能力と拡張性
主要大学・企業による 共同開発 プロジェクト

EuroLLMの特徴

ヨーロッパ発 の大規模言語モデル開発プロジェクト
24のEU公式言語 すべてをカバーする多言語対応
35言語・4兆トークン以上 の大規模データで事前学習
9Bパラメータ のフラッグシップモデルEuroLLM-9B
EuroLLM 9B Base はタスクごとのファインチューニングが可能
EuroLLM 9B Instruct は指示追従・チャットタスク用に最適化
マルチモーダル 対応予定：画像・音声も理解可能に進化予定
Hugging Face 上でモデル提供、誰でも試用・利用可能
オープンソース ：研究者・企業・市民が自由に利用・拡張
高性能 ：質問応答、要約、翻訳など多様な言語タスクで優れた性能

開発チームと関係機関

Unbabel、 Instituto Superior Técnico、 University of Edinburgh、 Université Paris-Saclay など欧州主要大学・企業が連携
Horizon Europe、 European Research Council、 EuroHPC の支援を受けて開発
MareNostrum 5スーパーコンピュータ でトレーニング実施
欧州デジタル主権 の強化とAIイノベーション推進をミッションとする

主な研究者

André Martins （Unbabel VP of AI Research/Instituto Superior Técnico准教授）：機械学習・自然言語処理の専門家、ELLIS Societyフェロー
Alexandra Birch （Aveni.ai共同創業者/University of Edinburgh准教授）：多言語NLP・翻訳・倫理・説明可能性研究
Nuno Guerreiro （Unbabel Senior Research Scientist）：機械翻訳評価・エラー検出・LLM開発
Pierre Colombo （Université Paris-Saclay准教授/Equall.AI CSO）：AI安全性・LLM応用、AAAI 2022最優秀学生論文賞受賞

EuroLLMの公開・利用

Hugging Face でモデル配布、誰でもダウンロード・ファインチューニング可能
オープンソース ライセンスで研究開発・商用利用も柔軟
EuroLLM 1.7B 技術レポートやリリース記事も公開
EuroHPC のHPCリソース、 Horizon Europe RIAプロジェクトUTTER の助成による開発推進

EuroLLMの今後

画像・音声対応 のマルチモーダル機能追加を計画
欧州発イノベーションの推進力 として、誰もが利用・発展できる基盤の提供
AI主権・多言語社会 にふさわしいAI技術の進化・普及を目指す

Hackerたちの意見

興味がある人のために、24の公式言語はブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイルランド語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語だよ。面白いことに、マルタ語は唯一のアフロ・アジア系の言語なんだ。ハンガリー語、フィンランド語、エストニア語はウラル語族の3つの言語。あとは全部インド・ヨーロッパ語族で、ギリシャ語が唯一のヘレニック言語、アイルランド語が唯一のケルト語、残りはバルト語、スラブ語、イタリック語、またはゲルマン語だね。（最初はバルト・スラブ語族って言ったけど、その言葉のいくつかの意味合いには今まで気づいてなかったよ。バルト語とスラブ語は共通の起源を持ってるけど、それはすごく昔のことだね）

└

マルタ語を読む、書く、話すことができるよ。言語について興味があったら質問してね。

└

リトアニア語とラトビア語はバルト語派だよ。スラブ語とは関係ないし…

└

明日、オランダで選挙があるんだけど、2つの政党がフリジア語をそのリストに追加することを提案してるよ。 https://neerlandistiek.nl/2025/10/kies-voor-taal/ 早くそのモデルの再訓練を始めた方がいいね。

└

フラマン語？フラマン語のテレビ番組（ホテル・ボー・セジュール[0]）を見たことがあるから、そんなにお金を投資する価値があるってことだよね。バスク語はどう？それはちょっと物議を醸す？ [0] https://en.wikipedia.org/wiki/Hotel_Beau_Séjour

└

ノルウェー語もモデルカードに含まれてるよ: https://huggingface.co/utter-project/EuroLLM-9B

└

マルタ語は、興味深いことに唯一のアフロアジア語系の言語なんだ。正確にはセム語だよ。 https://en.wikipedia.org/wiki/Semitic_languages

同じこと考えてた。なんでアメリカや中国みたいな国からだけ、そんなに優れたモデルが出てくるんだろう？フランスのミストラル以外、ヨーロッパの国はなんでリストに入ってないの？インド、日本、韓国の企業が、中国の企業みたいに有望な新モデルに近づくのはなんでこんなに少ないんだろう？

└

それって意味あるの？アメリカや中国のモデルを使って、必要に応じて調整すればいいじゃん。同じものを作るために何百万も使う意味ってどこにあるの？

└

フロンティアモデルの訓練は高くつくし、アメリカと中国だけが数百億ドルを調達できる資本構造を持ってるからだよ。

└

「なぜ？」っていうのは妥当な質問だけど、驚いてる？ヨーロッパはテクノロジーで常に遅れをとってるからね。ヨーロッパの人口はアメリカの約1.3倍、GDPは約75%だけど、EUのテクノロジーの出力はアメリカのテクノロジー出力のほんの小さな割合に過ぎない。70%、50%、30%、20%の話をしてるわけじゃない。ほんのわずかなんだ。 > アメリカの7大テクノロジー企業、アルファベット（グーグル）、アマゾン、アップル、メタ、マイクロソフト、Nvidia、テスラは、ヨーロッパの7大企業の20倍の規模で、収益は10倍だよ。 https://eqtgroup.com/thinq/technology/why-is-europes-tech-in... 「なぜ？」っていうのは良い質問だけど、テクノロジーの格差を考えると、ヨーロッパからのLLMにおいて大きな競争は期待できないと思う。競争力のないモデルが1つあるだけっていうのが、ほぼ予想通りだね。

└

EUはAIに関する900ページ以上の法律を作って、「AIを規制する最初の国だ」と自画自賛してるけど（実際はそうじゃなくて、中国にはもっと前にAI法があって、しかも2ページしかない）。

Hacker Newsで議論の続きを見る

ハクソク