世界を動かす技術を、日本語で。

Apertus 70B: 真のオープン - ETH、EPFL、CSCSによるスイスのLLM

概要

Apertusは、 完全公開型 の大規模多言語言語モデル。 1000以上の言語 と長文コンテキストをサポート。 トレーニングデータや手法が 完全公開 され、法令順守も徹底。 高性能 かつ透明性を重視した設計。 利用方法、評価、制限事項、法的観点も明示。

Apertus モデル概要

  • Apertus は、70Bおよび8Bパラメータの 大規模言語モデル
  • 完全オープン :重み・データ・全トレーニング手法を公開
  • 多言語対応 :1811言語をネイティブサポート
  • 長文コンテキスト :最大65,536トークンまで対応
  • トレーニングデータ :15兆トークン規模、Web・コード・数学データを段階的に使用
  • 新規技術 :xIELU活性化関数、AdEMAMixオプティマイザを採用
  • ファインチューニング :監督学習+QRPOによるアライメント
  • 法令順守 :データ所有者のオプトアウト権を尊重し、記憶回避も考慮
  • 詳細技術情報 :Apertus_Tech_Report.pdfで提供

利用方法

  • Transformers v4.56.0以上 で利用可能
  • vLLMMLX など最新推論エンジンもサポート
  • インストール例
    • pip install -U transformers
  • サンプルコード (Python)
    • from transformers import AutoModelForCausalLM, AutoTokenizer
    • model_name = "swiss-ai/Apertus-70B-2509"
    • GPU/CPU選択、トークナイザー・モデルのロード、入力生成、出力生成・デコード
  • 推奨パラメータ
    • temperature=0.8、top_p=0.9
  • エージェント的利用 :ツール利用もサポート
  • デプロイ :Transformers, vLLM, SGLang, MLXで展開可能

評価

  • 一般的な言語理解タスク で高い性能
  • ベンチマーク比較
    • Apertus-8B:平均65.8%、Apertus-70B:平均67.5%
    • Llama3.1-70B:67.3%、Qwen2.5-72B:69.8%などと同等水準
  • 多言語・長文・事前学習/ファインチューニングの詳細評価
    • 詳細はApertus_Tech_Report.pdfのSection 5参照

トレーニング

  • モデル構造 :Transformerデコーダ
  • 事前学習トークン数 :15兆
  • 精度 :bfloat16
  • ハードウェア :4096台のGH200 GPU
  • フレームワーク :Megatron-LM
  • トレーニング資源 :全て公開(データ再構成スクリプト、チェックポイント)
    • GitHub: github.com/swiss-ai/pretrain-data

制限事項

  • 生成内容の正確性・論理一貫性 が保証されない場合あり
  • バイアスや誤情報 が含まれる可能性
  • アシスト的用途 推奨、重要情報は必ず検証
  • 生成物の批判的評価 が必要

法的観点

  • EU AI Act への透明性対応
  • 公開ドキュメント
    • Apertus_EU_Public_Summary.pdf
    • Apertus_EU_Code_of_Practice.pdf
  • データ保護・著作権対応
    • 個人情報・著作物削除依頼はデータセット提供者またはllm-privacy-requests@swiss-ai.orgへ
  • 出力フィルター
    • 現時点で未提供、半年ごとに最新フィルターのダウンロードを推奨

問い合わせ・引用

  • 問い合わせ先 :llm-requests@swiss-ai.org
  • 論文引用例
    • @misc{swissai2025apertus, title={{Apertus: Democratizing Open and Compliant LLMs for Global Language Environments}}, author={Apertus Team}, year={2025}, howpublished={\url{https://huggingface.co/swiss-ai/Apertus-70B-2509}} }

Hackerたちの意見

これらの差別化要因についての議論を促すためにアップボートしますね。「Apertusは70Bと8Bのパラメータを持つ言語モデルで、完全にオープンな多言語モデルと透明性のあるモデルの限界を押し広げることを目的としています。このモデルは1000以上の言語と長いコンテキストをサポートし、完全に準拠したオープンなトレーニングデータのみを使用し、閉じられた環境で訓練されたモデルと同等のパフォーマンスを達成しています。」 「15Tトークンで、ウェブ、コード、数学データの段階的カリキュラムで事前訓練されています。」 「オープンウェイト + オープンデータ + すべてのデータとトレーニングレシピを含む完全なトレーニング詳細」 「Apertusはデータ所有者のオプトアウト同意を尊重しながら訓練されており(遡及的にも)、トレーニングデータの記憶を避けています。」

少なくとも「オープンソース」ではないですね。 > 「オープンウェイト + オープンデータ + すべてのデータとトレーニングレシピを含む完全なトレーニング詳細」 再現可能ですか? > データ所有者のオプトアウト同意を尊重しながら(遡及的にも) 彼らは通知されてオプトアウトの選択肢を与えられたのでしょうか? 所有者と著者は同じではありません。データ所有者は著作権所有者でもありません。 > トレーニングデータの記憶を避けること これは説得力がないですね。

レポート: https://github.com/swiss-ai/apertus-tech-report/raw/refs/hea... 主要な特徴 完全オープンモデル: オープンウェイト + オープンデータ + すべてのデータとトレーニングレシピを含む完全なトレーニング詳細 マルチリンガル: 1811のネイティブサポート言語 準拠: Apertusはデータ所有者のオプトアウト同意を尊重しながら訓練されており(遡及的にも)、トレーニングデータの記憶を避けています。

パフォーマンスはかなり良さそうで、一般知識に関してはLlama3.1と同じくらい(表17)ですが、コードや推論に関してはまだ少し遅れをとっているみたいです(表18)。Llama3.1は約1年前にリリースされました。

Nvidiaのドライバーバグに苦労していた話はすごく共感できました。10,752個の高性能GPUを買ったら、サポートを受けられると思うんですけどね。

ページ107に面白い「スイスAI憲章」がありますよ。

どうやら https://www.swiss-ai.org/ のプロジェクトのようですね。

私の意見では、後からRedditやFacebookのディスカッションスレッドで訓練されていたことがわかるような閉じられたモデルではなく、完全に追跡可能でクリーンなデータで訓練されたモデルがもっと必要です。

俺は、百科事典とかプログラミングの本だけでトレーニングされたやつを見てみたいな。それが、SNSがたくさん入ったやつと比べてどれだけ違うのか興味ある。

規制当局が一度でいいからちゃんと仕事をして、こうしたリリースの責任についての不確実性を取り除くようなクリーンな規制を作ってくれたらいいのに。そうすれば、ApacheやMITのライセンスを貼って終わりにできるし、「適正利用ポリシー」に従うために個人データを集める必要もなくなるのに。

報告されたデータセットからモデルがトレーニングされたことを確認する実用的な方法ってあるの?

プレトレーニングフェーズの81の中間チェックポイントをリリースしたし、再現するためのコードとデータもあるから、完全な監査は確実に可能だよ。ただ、ここで「実用的」と考えるものによるけどね。

これが成功することを願ってるし、そうなってほしい。でも今のところ、あまり良い兆しは見えないね。 - 業界が2-3世代前(llama 3.1時代)のモデルサイズ - 発表にベンチマーク結果が目立って欠けてる - openrouterには載ってないし、ggufsもまだ出てない

ベンチマーク:ここにある100ページ以上の技術報告書でたくさん提供してるよ https://github.com/swiss-ai/apertus-tech-report/blob/main/Ap... 量子化:今MLXで利用可能だよ https://github.com/ml-explore/mlx-lm (ggufはもうすぐ来るけど、新しいアーキテクチャのせいで簡単じゃない)モデルサイズ:今でも多くの良い密なモデルが、私たちが選んだ小さいサイズと大きいサイズの間にあるよ。

これを見るのが本当に嬉しいし、しっかり試してみるつもり。私の主観的な意見だけど、彼らは正しい方向に進んでいるように思うよ。""" このフィルターを実装するために、まずFineWeb(Penedo et al., 2024a)とFineWeb-2(Penedo et al., 2025)のコーパスに貢献するテキストの量に基づいてURLドメインをランク付けします。これはウェブレベルの英語と多言語データの近似として機能します。このランキングから、トップ100万の英語ドメインとトップ100万の非英語ドメインを選びます。ドメインの重複や、一部のサイトが現在オフラインであることから、アクセス可能なrobots.txtファイルの総数は200万未満になります。アクセス可能な各ドメインについて、2025年1月時点のrobots.txtファイルを取得し、AIトレーニングに関連する指示を調べます。特に、付録AにリストされているAI特有のユーザーエージェントを対象としたものに焦点を当てます。現在のrobots.txtによってブロックされたコンテンツは、トレーニングデータセットの2013-2024年全体から遡って削除されます。私たちはオプトアウトポリシーに従い、対応するrobots.txtファイルが利用できない場合、そのデータはトレーニングに使用可能と見なします。このフィルタリングプロセスの結果、英語データでは約8%、多言語データでは約4%のトークン損失が見込まれます。 """

現在のrobots.txtによってブロックされたコンテンツは、トレーニングデータセットの2013-2024年全体から遡って削除されます。 どうしてrobots.txtの過去のバージョン(例えばarchive.org)をチェックして、遡及的なカットオフを特定の日付範囲に制限し、robots.txtをそれに応じて解析しないの? それなら、法的かつ公正な利用の範囲内でコーパスサイズを増やせるかもしれないよ。

apertusチームのマーチンです。もしできることがあれば、質問にお答えします。モデルの全コレクションはこちらにあります: https://huggingface.co/collections/swiss-ai/apertus-llm-68b6... 追記:これをMacでローカルに実行するには、以下のワンライナーを使ってね: pip install mlx-lm mlx_lm.generate --model mlx-community/Apertus-8B-Instruct-2509-8bit --prompt "あなたは誰ですか?"

すごくいいね!これ大好き。トレーニングはスイスの言語に重点を置いてたのかな?それと、スイスの言語のパフォーマンスは他の言語と比べてどうなの?このモデルの後にさらに別のモデルを作る予定はあるの?