概要
MiniMax-M2.5は、強化学習を活用し現実世界の複雑な環境で訓練された最新のAIモデル。 コーディング、ツール利用、検索、オフィス作業などで業界最高水準の性能を実現。 驚異的な速度と低コストを両立し、経済的価値の高いタスクに最適。 独自の強化学習フレームワークやアルゴリズムで継続的な進化を遂げている。 MiniMax Agentへの統合により、実務レベルの自動化と生産性向上を実現。
MiniMax-M2.5の全体概要
- MiniMax-M2.5 は、 強化学習 を活用し数十万の現実環境で訓練された 最先端AIモデル。
- コーディング、エージェント的ツール利用、検索、オフィスワークなど、多様な 経済価値の高いタスク でSOTA(State of the Art)性能を発揮。
- SWE-Bench Verifiedで 80.2%、Multi-SWE-Benchで 51.3%、BrowseComp(コンテキスト管理あり)で 76.3% の高スコアを記録。
- タスク分解と効率的推論に優れ、 SWE-Bench Verified評価でM2.1比37%高速化、Claude Opus 4.6と同等の速度を実現。
- コスト面でも革新 を達成、1時間連続稼働で$1(100トークン/秒)、50トークン/秒なら$0.3で利用可能。
コーディング性能
- プログラミング評価で 前世代を大きく上回るSOTA水準 に到達。
- 多言語コーディング (Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Rubyなど10言語以上)をサポート。
- 設計・仕様策定能力 が向上し、熟練ソフトウェアアーキテクトの視点で機能分解・計画を自動実施。
- 20万以上の実環境で訓練され、 システム設計から開発、機能追加、コードレビュー、テストまで 一貫対応。
- Web、Android、iOS、Windows等の フルスタック開発 に対応、サーバーAPIやビジネスロジック、データベースもカバー。
- 評価基準として VIBE Pro を新設し、より複雑・高精度なタスクでOpus 4.5と同等のパフォーマンスを実証。
- SWE-Bench Verifiedの異なるハーネスでも Opus 4.6を上回るスコア を記録。
サーチ・ツール活用能力
- BrowseCompやWide Search等のベンチマークで 業界最高水準のツール呼び出し・検索性能 を実証。
- 未知の環境下でも 安定した汎化能力 を発揮。
- RISE(Realistic Interactive Search Evaluation)により 専門家レベルの検索タスク も高精度で対応。
- エージェント的タスク での意思決定も向上、 M2.1比で約20%ラウンド削減 しつつ高効率で課題解決。
オフィスワーク最適化
- 実務納品レベルのアウトプット を目指し、金融・法務・社会科学の専門家と連携して訓練データを構築。
- Word、PowerPoint、Excel等の 高付加価値業務シナリオ に最適化。
- 内部評価フレームワークGDPval-MMで 成果物品質と専門性、トークンコストを総合評価。
- 他主流モデルと比較し 平均勝率59.0% を記録。
効率・コストパフォーマンス
- 100トークン/秒のネイティブ提供速度 で、他の先端モデルの約2倍のスピードを実現。
- 強化学習により 推論効率・タスク分解最適化 が促進。
- SWE-Bench Verifiedでは M2.1比で37%高速化、コストは Claude Opus 4.6の10% に抑制。
- M2.5-Lightning(100トークン/秒)とM2.5(50トークン/秒)を用意し、 用途に応じて選択可能。
- 100トークン/秒で1時間$1、50トークン/秒なら$0.3。
- 年間フル稼働でも$10,000で4インスタンス維持可能。
モデル進化と強化学習スケーリング
- 3.5ヶ月でM2→M2.1→M2.5と 急速な進化 を実現。
- SWE-Bench Verifiedでの進歩速度は Claude、GPT、Gemini系列を大きく上回る。
- 強化学習スケーリング が進化の原動力。
- 社内業務を訓練環境化し、 数十万のRL環境 を構築。
- 独自のForgeエージェントネイティブRLフレームワークを開発、 柔軟なエージェント統合 と 40倍の訓練速度向上 を実現。
- CISPOアルゴリズムやプロセス報酬機構により MoEモデルの安定性とユーザー体験の両立 に成功。
MiniMax Agentへの統合と実用事例
- MiniMax Agent にM2.5を全面展開、 オフィススキル を標準化し業務自動化を推進。
- ファイル種別に応じたスキル自動ロードで 品質向上。
- 業界特化のExpertを作成可能、 10,000以上のExpertがユーザーにより構築済み。
- 研究や金融モデリング等、 業界標準手順や独自ロジックを自動適用 した納品物生成が可能。
- MiniMax社内でも 全タスクの30%をM2.5が自律完了、新規コミットコードの80%がM2.5生成。
まとめと今後の展望
- MiniMax-M2.5は 速度・コスト・汎用性・実用性 の全てで従来を凌駕。
- エージェント自動化・生産性向上 の新たな基盤として、今後も継続的な能力向上を目指す方針。