ハクソク

世界を動かす技術を、日本語で。

ETHチューリッヒとEPFLが公共インフラ上で開発されたLLMを発表予定

2025年7月12日原文(ethz.ch)

概要

Genevaで開催されたInternational Open-Source LLM Builders Summitの要点
EPFL・ETH Zurich中心の完全オープンなLLM公開予定
1000言語以上対応・高い透明性と再現性を重視
Alpsスーパーコンピュータによる大規模トレーニング
Apache 2.0ライセンスで今夏公開予定

International Open-Source LLM Builders Summitの開催

Geneva にて約50のグローバルなオープンソースLLM・信頼性AI関連組織が集結
EPFL および ETH Zurich のAIセンターが主催
オープンファウンデーションモデル推進の国際的なエコシステム構築
クローズドな商用モデル（主に米中発）への信頼性ある代替案としての オープンLLM の台頭
サミット参加者により、完全オープンなLLMのリリースが予告

新LLMモデルの特徴

EPFL・ETH Zurich、スイス国内大学、 CSCS エンジニアによる共同開発
現在最終テスト中、 オープンライセンス でダウンロード可能予定
透明性・多言語対応・幅広い利用者へのアクセス性重視
ソースコード・重み（weights）・トレーニングデータ全て公開、再現性確保
科学・行政・教育・民間など多様な分野での応用を想定

透明性と責任あるAI

完全オープンモデル による高信頼アプリケーションの実現
AIのリスク・機会に関する研究促進
プロセスの透明化による 規制遵守 の容易化
ETH AI Center のImanol Schlag氏、 EPFL AI Center のAntoine Bosselut氏・Martin Jaggi教授らがリーダーシップ

多言語性へのこだわり

1000言語以上に対応した 多言語LLM
Antoine Bosselut氏「最初から多言語性を重視」
1500以上の言語データセット（英語60%、非英語40%）、コード・数学データも含む
多様な言語・文化の表現を反映し、グローバルな適用性を確保

スケーラビリティと包摂性

8B（80億）・70B（700億）パラメータの2種モデルを公開予定
70Bモデルは 世界最大級の完全オープンLLM に位置付け
パラメータ数＝複雑な応答生成・学習能力の指標
15兆以上の高品質トークンでトレーニング、高い信頼性・多用途性を実現

責任あるデータ活用

スイスの データ保護法 ・著作権法、EU AI Actの透明性義務を遵守
Webクロール時のオプトアウト尊重でも、日常的なタスクや知識獲得にほぼ性能劣化なし（外部研究で証明）

AlpsスーパーコンピュータによるAI主権

CSCS（Lugano） の“Alps”スーパーコンピュータでトレーニング
1万台以上のNVIDIA Grace Hopper Superchips搭載、世界有数のAIプラットフォーム
100%カーボンニュートラル電力で効率的なトレーニング実現
NVIDIA・HPE/Crayとの15年以上の連携がAlpsの実現を後押し
Thomas Schulthess氏「Alpsへの戦略投資と産学連携がオープンイノベーション推進の鍵」

公開・再利用とグローバル展開

今夏、 Apache 2.0 License でLLMリリース予定
モデルアーキテクチャ・トレーニング手法・利用ガイド等のドキュメントを同時公開
公的研究機関の科学者が主導、他組織による応用・発展を支援
完全オープン志向で スイス・欧州・多国間協力 によるイノベーション促進
Martin Jaggi教授「フルオープン化は優秀な人材獲得・育成にも寄与」

Hackerたちの意見

「データ取得中にウェブクローリングのオプトアウトを尊重することで、パフォーマンスの低下はほとんどない」って、いいニュースだね！

└

エンドユーザーを除いて、トレーニングメトリクスにパフォーマンスの劣化はないよ。結局、ユーザーとウェブサイトのオーナーは全く異なる利益を持っている。ユーザーは答えやコンテンツを求めていて、ウェブサイトのオーナーは注意を引いてアップセルや広告を押し出したいと思っている。どちらか一方のためにしかサービスできないんだ。

実証テストが楽しみだな。

リリースもないのに、なんでこんな発表するの？正直に言ってよ。

└

今週スイスで開催された国際オープンソースLLMビルダーズサミットでの発表だったんだよね。彼らが何をしているか、そしてそのタイムラインを発表するのがそんなに変なの？

└

資金調達？ヨーロッパで開発されたLLM（少なくともアメリカや中国のものじゃない）に偏るのは、すごく理にかなってると思うよ。（ブリュッセルにはちょっと過ぎた理屈かもね。）

└

アルプスのこちら側では、スイスの人たちは「時間をかける」っていうのが定番のイメージだよね。

オープントレーニングデータは大きな差別化要因だね。これがこの規模での本当にオープンなデータセットの初めての例なのかな？以前の「The Pile」みたいな試みは価値があったけど、限界もあったし。トレーニングの再現性がどうなるのか、気になるな。

└

モデルは完全にオープンになります：ソースコードとウェイトは公開され、トレーニングデータは透明で再現可能です。これを見ると、トレーニングデータは完全には公開されず、「再現可能」であるだけだと思う。つまり、トレーニングに使ったページのURLリストみたいな参考を提供するだけで、その内容は公開しないってことかも。

プレスリリースではどうやって実現したかについてはたくさん語ってるけど、他のオープンモデルと比べた能力についてはほとんど触れてないね。

└

大学だから、「どうやってやるか」を教えるのがポイントだよね。

└

モデルは2つのサイズでリリースされる予定だよ — 80億と700億パラメータのものだって。[...] 700Bバージョンは、世界中で最も強力な完全オープンモデルの一つになるだろうね。[...] 夏の終わりに、LLMはApache 2.0ライセンスの下でリリースされる予定だよ。本当にそうか、9月にわかるね？

Hacker Newsで議論の続きを見る