概要
Apertusは、 完全公開型 の大規模多言語言語モデル。 1000以上の言語 と長文コンテキストをサポート。 トレーニングデータや手法が 完全公開 され、法令順守も徹底。 高性能 かつ透明性を重視した設計。 利用方法、評価、制限事項、法的観点も明示。
Apertus モデル概要
- Apertus は、70Bおよび8Bパラメータの 大規模言語モデル
- 完全オープン :重み・データ・全トレーニング手法を公開
- 多言語対応 :1811言語をネイティブサポート
- 長文コンテキスト :最大65,536トークンまで対応
- トレーニングデータ :15兆トークン規模、Web・コード・数学データを段階的に使用
- 新規技術 :xIELU活性化関数、AdEMAMixオプティマイザを採用
- ファインチューニング :監督学習+QRPOによるアライメント
- 法令順守 :データ所有者のオプトアウト権を尊重し、記憶回避も考慮
- 詳細技術情報 :Apertus_Tech_Report.pdfで提供
利用方法
- Transformers v4.56.0以上 で利用可能
- vLLM や MLX など最新推論エンジンもサポート
- インストール例
pip install -U transformers
- サンプルコード (Python)
from transformers import AutoModelForCausalLM, AutoTokenizermodel_name = "swiss-ai/Apertus-70B-2509"- GPU/CPU選択、トークナイザー・モデルのロード、入力生成、出力生成・デコード
- 推奨パラメータ
- temperature=0.8、top_p=0.9
- エージェント的利用 :ツール利用もサポート
- デプロイ :Transformers, vLLM, SGLang, MLXで展開可能
評価
- 一般的な言語理解タスク で高い性能
- ベンチマーク比較
- Apertus-8B:平均65.8%、Apertus-70B:平均67.5%
- Llama3.1-70B:67.3%、Qwen2.5-72B:69.8%などと同等水準
- 多言語・長文・事前学習/ファインチューニングの詳細評価
- 詳細はApertus_Tech_Report.pdfのSection 5参照
トレーニング
- モデル構造 :Transformerデコーダ
- 事前学習トークン数 :15兆
- 精度 :bfloat16
- ハードウェア :4096台のGH200 GPU
- フレームワーク :Megatron-LM
- トレーニング資源 :全て公開(データ再構成スクリプト、チェックポイント)
- GitHub: github.com/swiss-ai/pretrain-data
制限事項
- 生成内容の正確性・論理一貫性 が保証されない場合あり
- バイアスや誤情報 が含まれる可能性
- アシスト的用途 推奨、重要情報は必ず検証
- 生成物の批判的評価 が必要
法的観点
- EU AI Act への透明性対応
- 公開ドキュメント
- Apertus_EU_Public_Summary.pdf
- Apertus_EU_Code_of_Practice.pdf
- データ保護・著作権対応
- 個人情報・著作物削除依頼はデータセット提供者またはllm-privacy-requests@swiss-ai.orgへ
- 出力フィルター
- 現時点で未提供、半年ごとに最新フィルターのダウンロードを推奨
問い合わせ・引用
- 問い合わせ先 :llm-requests@swiss-ai.org
- 論文引用例
@misc{swissai2025apertus, title={{Apertus: Democratizing Open and Compliant LLMs for Global Language Environments}}, author={Apertus Team}, year={2025}, howpublished={\url{https://huggingface.co/swiss-ai/Apertus-70B-2509}} }