MiniMax-M1オープンウェイト大規模ハイブリッドアテンション推論モデル

2025年6月18日原文(github.com)

概要

MiniMax-M1は、世界初のオープンウェイト大規模ハイブリッドアテンション推論モデル。ハイブリッドMoEアーキテクチャとLightning Attentionを組み合わせ、高効率・長文処理に対応。ベンチマークでDeepSeek R1やQwen3-235Bを上回る性能を発揮。 RLスケーリングやCISPOアルゴリズムを導入し、複雑なタスクに強み。モデル配布・デプロイ・API利用・問い合わせ方法も提供。

MiniMax-M1 概要

MiniMax-M1 は世界初の オープンウェイト大規模ハイブリッドアテンション推論モデル
ハイブリッドMixture-of-Experts（MoE） アーキテクチャと Lightning Attention を採用
前身のMiniMax-Text-01を基に開発、 総パラメータ4560億、 1トークンあたり45.9億パラメータ 活性化
100万トークンのコンテキスト長 をネイティブでサポート（DeepSeek R1の8倍）
Lightning Attentionにより、 テスト時計算効率が大幅向上、例：DeepSeek R1比でFLOPs25%消費（10万トークン生成時）
大規模強化学習（RL） で伝統的数学推論から実世界ソフトウェア開発まで幅広く学習
CISPOアルゴリズム （トークン更新でなく重要度サンプリング重みをクリップ）を提案、他RL手法より高性能
ハイブリッドアテンション設計 がRL効率を自然に向上、スケーリング時の課題も解決
40K/80Kシンキングバジェット の2モデルを展開

ベンチマーク性能比較

標準ベンチマークで DeepSeek R1やQwen3-235Bより高い性能 を発揮
- ソフトウェア工学、ツール利用、長文タスク で特に強み
主要モデル（MiniMax-M1-80K/40K, Qwen3-235B, DeepSeek R1, Claude 4, Gemini 2.5 Pro, OpenAI-o3等）と比較
代表的なスコア（抜粋）：
- Mathematics（AIME 2024）：MiniMax-M1-80K：86.0、DeepSeek R1：91.4
- Coding（LiveCodeBench）：MiniMax-M1-80K：65.0、DeepSeek R1：73.1
- Long Context（OpenAI-MRCR 1M）：MiniMax-M1-80K：56.2、Gemini 2.5 Pro：58.8
- Tool Use（TAU-bench airline）：MiniMax-M1-80K：62.0、Claude 4：59.6

SWE-bench評価手法

Agentless scaffold を用いた2段階ローカライゼーション（埋め込み検索なし）
- 粗い粒度でファイル特定→細かい粒度でコード要素特定
n=486の検証済みタスクで評価（内部インフラ非対応の14ケース除外）

TAU-bench評価手法

GPT-4.1 をユーザーモデルとして利用、カスタムツール未使用
最大40ステップまでの対話で評価
システムプロンプトにツール利用やポリシー厳守を明記

デプロイガイド

HuggingFace からモデルダウンロード可能
- MiniMax-M1-40k
- MiniMax-M1-80k
vLLM による本番運用を推奨
- 高性能なサービス
- 効率的なメモリ管理
- 強力なバッチリクエスト処理
- 最適化されたパフォーマンス
vLLMデプロイ詳細は vLLM Deployment Guide 参照
Transformers による直接デプロイも可能（詳細はMiniMax-M1 Transformers Deployment Guide参照）

ファンクションコーリング

外部関数呼び出し機能 をサポート
- 必要時に関数呼び出しを自動判別し、パラメータを構造化出力
詳細手順は MiniMax-M1 Function Call Guide 参照

チャットボット・API

一般利用・評価向けに チャットボット（オンライン検索対応） と API を提供
MiniMax MCP Server で動画生成・画像生成・音声合成・ボイスクローン機能も用意

お問い合わせ

model@minimax.io までメールで連絡可能

ハクソク