世界を動かす技術を、日本語で。

ETHチューリッヒとEPFLが公共インフラ上で開発されたLLMを発表予定

概要

  • Genevaで開催されたInternational Open-Source LLM Builders Summitの要点
  • EPFL・ETH Zurich中心の完全オープンなLLM公開予定
  • 1000言語以上対応・高い透明性と再現性を重視
  • Alpsスーパーコンピュータによる大規模トレーニング
  • Apache 2.0ライセンスで今夏公開予定

International Open-Source LLM Builders Summitの開催

  • Geneva にて約50のグローバルなオープンソースLLM・信頼性AI関連組織が集結
  • EPFL および ETH Zurich のAIセンターが主催
  • オープンファウンデーションモデル推進の国際的なエコシステム構築
  • クローズドな商用モデル(主に米中発)への信頼性ある代替案としての オープンLLM の台頭
  • サミット参加者により、完全オープンなLLMのリリースが予告

新LLMモデルの特徴

  • EPFL・ETH Zurich、スイス国内大学、 CSCS エンジニアによる共同開発
  • 現在最終テスト中、 オープンライセンス でダウンロード可能予定
  • 透明性・多言語対応・幅広い利用者へのアクセス性重視
  • ソースコード・重み(weights)・トレーニングデータ全て公開、再現性確保
  • 科学・行政・教育・民間など多様な分野での応用を想定

透明性と責任あるAI

  • 完全オープンモデル による高信頼アプリケーションの実現
  • AIのリスク・機会に関する研究促進
  • プロセスの透明化による 規制遵守 の容易化
  • ETH AI Center のImanol Schlag氏、 EPFL AI Center のAntoine Bosselut氏・Martin Jaggi教授らがリーダーシップ

多言語性へのこだわり

  • 1000言語以上に対応した 多言語LLM
  • Antoine Bosselut氏「最初から多言語性を重視」
  • 1500以上の言語データセット(英語60%、非英語40%)、コード・数学データも含む
  • 多様な言語・文化の表現を反映し、グローバルな適用性を確保

スケーラビリティと包摂性

  • 8B(80億)・70B(700億)パラメータの2種モデルを公開予定
  • 70Bモデルは 世界最大級の完全オープンLLM に位置付け
  • パラメータ数=複雑な応答生成・学習能力の指標
  • 15兆以上の高品質トークンでトレーニング、高い信頼性・多用途性を実現

責任あるデータ活用

  • スイスの データ保護法 ・著作権法、EU AI Actの透明性義務を遵守
  • Webクロール時のオプトアウト尊重でも、日常的なタスクや知識獲得にほぼ性能劣化なし(外部研究で証明)

AlpsスーパーコンピュータによるAI主権

  • CSCS(Lugano) の“Alps”スーパーコンピュータでトレーニング
  • 1万台以上のNVIDIA Grace Hopper Superchips搭載、世界有数のAIプラットフォーム
  • 100%カーボンニュートラル電力で効率的なトレーニング実現
  • NVIDIA・HPE/Crayとの15年以上の連携がAlpsの実現を後押し
  • Thomas Schulthess氏「Alpsへの戦略投資と産学連携がオープンイノベーション推進の鍵」

公開・再利用とグローバル展開

  • 今夏、 Apache 2.0 License でLLMリリース予定
  • モデルアーキテクチャ・トレーニング手法・利用ガイド等のドキュメントを同時公開
  • 公的研究機関の科学者が主導、他組織による応用・発展を支援
  • 完全オープン志向で スイス・欧州・多国間協力 によるイノベーション促進
  • Martin Jaggi教授「フルオープン化は優秀な人材獲得・育成にも寄与」

Hackerたちの意見

「データ取得中にウェブクローリングのオプトアウトを尊重することで、パフォーマンスの低下はほとんどない」って、いいニュースだね!

エンドユーザーを除いて、トレーニングメトリクスにパフォーマンスの劣化はないよ。結局、ユーザーとウェブサイトのオーナーは全く異なる利益を持っている。ユーザーは答えやコンテンツを求めていて、ウェブサイトのオーナーは注意を引いてアップセルや広告を押し出したいと思っている。どちらか一方のためにしかサービスできないんだ。

実証テストが楽しみだな。

リリースもないのに、なんでこんな発表するの?正直に言ってよ。

今週スイスで開催された国際オープンソースLLMビルダーズサミットでの発表だったんだよね。彼らが何をしているか、そしてそのタイムラインを発表するのがそんなに変なの?

資金調達?ヨーロッパで開発されたLLM(少なくともアメリカや中国のものじゃない)に偏るのは、すごく理にかなってると思うよ。(ブリュッセルにはちょっと過ぎた理屈かもね。)

アルプスのこちら側では、スイスの人たちは「時間をかける」っていうのが定番のイメージだよね。

オープントレーニングデータは大きな差別化要因だね。これがこの規模での本当にオープンなデータセットの初めての例なのかな?以前の「The Pile」みたいな試みは価値があったけど、限界もあったし。トレーニングの再現性がどうなるのか、気になるな。

モデルは完全にオープンになります:ソースコードとウェイトは公開され、トレーニングデータは透明で再現可能です。これを見ると、トレーニングデータは完全には公開されず、「再現可能」であるだけだと思う。つまり、トレーニングに使ったページのURLリストみたいな参考を提供するだけで、その内容は公開しないってことかも。

プレスリリースではどうやって実現したかについてはたくさん語ってるけど、他のオープンモデルと比べた能力についてはほとんど触れてないね。

大学だから、「どうやってやるか」を教えるのがポイントだよね。

モデルは2つのサイズでリリースされる予定だよ — 80億と700億パラメータのものだって。[...] 700Bバージョンは、世界中で最も強力な完全オープンモデルの一つになるだろうね。[...] 夏の終わりに、LLMはApache 2.0ライセンスの下でリリースされる予定だよ。本当にそうか、9月にわかるね?

記事には「オープンLLMは、アメリカや中国で閉鎖的に開発されている商業システムの信頼できる代替手段としてますます見なされている」と書いてあるね。今の大規模LLMを作っている企業は、彼らを「エンシティファイ」しようとするインセンティブがあるのは明らかだよ。サブスクリプションを取ろうとしながら、同時に商品広告を入れようとしているんだ。さらに悪いことに、すでに政治的なバイアスを持っているところもある。ヨーロッパの学界と政府が協力して、ユーザーを企業よりも優先する公共の利益を追求するAIを作れたら素晴らしいね。

これがデータセットの透明性の基準を設定しているのかな?かなりの前進に見えるね。うまくいけばだけど。彼らはチャンスを逃したね。機械の名前をAIps(AIペタフロップススーパーコンピュータ)にすべきだった。

アレン人工知能研究所のOLMoモデルも完全にオープンだと思うよ:OLMoは完全にオープンで、Ai2はAIがすべての人にアクセス可能な未来を築くためのオープン性の力を信じている。オープンなウェイトだけでは不十分で、真のオープン性はデータ、モデル、コードに完全にオープンなアクセスでトレーニングされることが必要だよ。 https://allenai.org/olmo

彼らがうまくいくことを願ってるよ。私の知る限り、彼らは古いLLaMAモデルをトレーニングまたはファインチューニングしているから、パフォーマンスはSOTAに遅れをとるかもしれない。でも本当に重要なのは、ETHとEPFLが大規模なトレーニングの実践経験を得ることだと思う。聞いたところによると、新しいAIクラスターはまだ立ち上げ時の問題があるみたい。特に自分のインフラでこの規模のモデルをトレーニングするのがどれだけ大変かを多くの人が過小評価しているよ。ちなみに、私はスイス人でETHで学んだ。頭脳はあるけど、大規模なトレーニング経験はまだあまりないんだ。そして私の意見では、LLMの「魔法」の多くはインフラに依存していると思う。

「ゼロから」という表現を読むと、ファインチューニングだけじゃなくて、事前学習もやってるんじゃないかと思うんだけど、どう思う?普通のLlamaアーキテクチャを使ってるってこと?ベンチマークについても興味あるな!

個人的には、魔法のような部分はデータセットにも依存してると思う。特にSFTや他のファインチューニング/RLHFデータが重要だよね。それが、実際に使われるモデルとそうでないモデルを分けてる要因だと思う。経験を積むことの重要性には同意するし、インフラは本当に大事で、主権的なLLMサプライチェーンの中で最も重要な部分かもしれない。データにも早い段階から十分に焦点が当たって、モデルが役立つものになることを願ってる。

SOTAのLLMをトレーニングするためのインフラは結構複雑になるよね。みんな、アーキテクチャとデータセットを読み込んで、Rayみたいなものを使うだけだと思ってるけど、データセットの設計や評価パイプライン、トレーニングアプローチ、ハードウェアの最大活用、ノード間のレイテンシーの対処、エラーからの回復など、やることがたくさんある。だけど、この分野にもっと多くのプレイヤーが増えるのはいいことだね。

スイス人として、これがHNのトップにあるのを見るとちょっと誇らしい気持ちになるな(ここに潜んでる人も多いだろうし!)。この二つの大学は、世界クラスの創業者や研究者、エンジニアを輩出してる。でも、アメリカの影に隠れてるのが現実。私たちのトップクラスの公共インフラ、教育、政治的安定性(中立性も含めて)を活かして、オープンなLLMの分野で何か特別なものを作るチャンスがあると思う。