Apertus 70B: 真のオープン - ETH、EPFL、CSCSによるスイスのLLM

2025年9月3日原文(huggingface.co)

概要

Apertusは、 完全公開型 の大規模多言語言語モデル。 1000以上の言語 と長文コンテキストをサポート。トレーニングデータや手法が 完全公開 され、法令順守も徹底。 高性能 かつ透明性を重視した設計。利用方法、評価、制限事項、法的観点も明示。

Apertus モデル概要

Apertus は、70Bおよび8Bパラメータの 大規模言語モデル
完全オープン ：重み・データ・全トレーニング手法を公開
多言語対応 ：1811言語をネイティブサポート
長文コンテキスト ：最大65,536トークンまで対応
トレーニングデータ ：15兆トークン規模、Web・コード・数学データを段階的に使用
新規技術 ：xIELU活性化関数、AdEMAMixオプティマイザを採用
ファインチューニング ：監督学習＋QRPOによるアライメント
法令順守 ：データ所有者のオプトアウト権を尊重し、記憶回避も考慮
詳細技術情報 ：Apertus_Tech_Report.pdfで提供

利用方法

Transformers v4.56.0以上 で利用可能
vLLM や MLX など最新推論エンジンもサポート
インストール例
- pip install -U transformers
サンプルコード （Python）
- from transformers import AutoModelForCausalLM, AutoTokenizer
- model_name = "swiss-ai/Apertus-70B-2509"
- GPU/CPU選択、トークナイザー・モデルのロード、入力生成、出力生成・デコード
推奨パラメータ
- temperature=0.8、top_p=0.9
エージェント的利用 ：ツール利用もサポート
デプロイ ：Transformers, vLLM, SGLang, MLXで展開可能

評価

一般的な言語理解タスク で高い性能
ベンチマーク比較
- Apertus-8B：平均65.8%、Apertus-70B：平均67.5%
- Llama3.1-70B：67.3%、Qwen2.5-72B：69.8%などと同等水準
多言語・長文・事前学習/ファインチューニングの詳細評価
- 詳細はApertus_Tech_Report.pdfのSection 5参照

トレーニング

モデル構造 ：Transformerデコーダ
事前学習トークン数 ：15兆
精度：bfloat16
ハードウェア ：4096台のGH200 GPU
フレームワーク ：Megatron-LM
トレーニング資源 ：全て公開（データ再構成スクリプト、チェックポイント）
- GitHub: github.com/swiss-ai/pretrain-data

制限事項

生成内容の正確性・論理一貫性 が保証されない場合あり
バイアスや誤情報 が含まれる可能性
アシスト的用途 推奨、重要情報は必ず検証
生成物の批判的評価 が必要

法的観点

EU AI Act への透明性対応
公開ドキュメント
- Apertus_EU_Public_Summary.pdf
- Apertus_EU_Code_of_Practice.pdf
データ保護・著作権対応
- 個人情報・著作物削除依頼はデータセット提供者またはllm-privacy-requests@swiss-ai.orgへ
出力フィルター
- 現時点で未提供、半年ごとに最新フィルターのダウンロードを推奨

問い合わせ・引用

問い合わせ先 ：llm-requests@swiss-ai.org
論文引用例
- @misc{swissai2025apertus, title={{Apertus: Democratizing Open and Compliant LLMs for Global Language Environments}}, author={Apertus Team}, year={2025}, howpublished={\url{https://huggingface.co/swiss-ai/Apertus-70B-2509}} }

Hackerたちの意見

これらの差別化要因についての議論を促すためにアップボートしますね。「Apertusは70Bと8Bのパラメータを持つ言語モデルで、完全にオープンな多言語モデルと透明性のあるモデルの限界を押し広げることを目的としています。このモデルは1000以上の言語と長いコンテキストをサポートし、完全に準拠したオープンなトレーニングデータのみを使用し、閉じられた環境で訓練されたモデルと同等のパフォーマンスを達成しています。」「15Tトークンで、ウェブ、コード、数学データの段階的カリキュラムで事前訓練されています。」「オープンウェイト + オープンデータ + すべてのデータとトレーニングレシピを含む完全なトレーニング詳細」「Apertusはデータ所有者のオプトアウト同意を尊重しながら訓練されており（遡及的にも）、トレーニングデータの記憶を避けています。」

└

少なくとも「オープンソース」ではないですね。 > 「オープンウェイト + オープンデータ + すべてのデータとトレーニングレシピを含む完全なトレーニング詳細」再現可能ですか？ > データ所有者のオプトアウト同意を尊重しながら（遡及的にも）彼らは通知されてオプトアウトの選択肢を与えられたのでしょうか？所有者と著者は同じではありません。データ所有者は著作権所有者でもありません。 > トレーニングデータの記憶を避けることこれは説得力がないですね。

レポート: https://github.com/swiss-ai/apertus-tech-report/raw/refs/hea... 主要な特徴完全オープンモデル: オープンウェイト + オープンデータ + すべてのデータとトレーニングレシピを含む完全なトレーニング詳細マルチリンガル: 1811のネイティブサポート言語準拠: Apertusはデータ所有者のオプトアウト同意を尊重しながら訓練されており（遡及的にも）、トレーニングデータの記憶を避けています。

└

パフォーマンスはかなり良さそうで、一般知識に関してはLlama3.1と同じくらい（表17）ですが、コードや推論に関してはまだ少し遅れをとっているみたいです（表18）。Llama3.1は約1年前にリリースされました。

└

Nvidiaのドライバーバグに苦労していた話はすごく共感できました。10,752個の高性能GPUを買ったら、サポートを受けられると思うんですけどね。

└

ページ107に面白い「スイスAI憲章」がありますよ。

どうやら https://www.swiss-ai.org/ のプロジェクトのようですね。

私の意見では、後からRedditやFacebookのディスカッションスレッドで訓練されていたことがわかるような閉じられたモデルではなく、完全に追跡可能でクリーンなデータで訓練されたモデルがもっと必要です。

└

俺は、百科事典とかプログラミングの本だけでトレーニングされたやつを見てみたいな。それが、SNSがたくさん入ったやつと比べてどれだけ違うのか興味ある。

規制当局が一度でいいからちゃんと仕事をして、こうしたリリースの責任についての不確実性を取り除くようなクリーンな規制を作ってくれたらいいのに。そうすれば、ApacheやMITのライセンスを貼って終わりにできるし、「適正利用ポリシー」に従うために個人データを集める必要もなくなるのに。

報告されたデータセットからモデルがトレーニングされたことを確認する実用的な方法ってあるの？

└

プレトレーニングフェーズの81の中間チェックポイントをリリースしたし、再現するためのコードとデータもあるから、完全な監査は確実に可能だよ。ただ、ここで「実用的」と考えるものによるけどね。

Hacker Newsで議論の続きを見る

ハクソク