世界を動かす技術を、日本語で。

MiniMax M2.5がリリース:SWE-benchで80.2%の検証を達成

概要

MiniMax-M2.5は、強化学習を活用し現実世界の複雑な環境で訓練された最新のAIモデル。 コーディング、ツール利用、検索、オフィス作業などで業界最高水準の性能を実現。 驚異的な速度と低コストを両立し、経済的価値の高いタスクに最適。 独自の強化学習フレームワークやアルゴリズムで継続的な進化を遂げている。 MiniMax Agentへの統合により、実務レベルの自動化と生産性向上を実現。

MiniMax-M2.5の全体概要

  • MiniMax-M2.5 は、 強化学習 を活用し数十万の現実環境で訓練された 最先端AIモデル
  • コーディング、エージェント的ツール利用、検索、オフィスワークなど、多様な 経済価値の高いタスク でSOTA(State of the Art)性能を発揮。
  • SWE-Bench Verifiedで 80.2%、Multi-SWE-Benchで 51.3%、BrowseComp(コンテキスト管理あり)で 76.3% の高スコアを記録。
  • タスク分解と効率的推論に優れ、 SWE-Bench Verified評価でM2.1比37%高速化、Claude Opus 4.6と同等の速度を実現。
  • コスト面でも革新 を達成、1時間連続稼働で$1(100トークン/秒)、50トークン/秒なら$0.3で利用可能。

コーディング性能

  • プログラミング評価で 前世代を大きく上回るSOTA水準 に到達。
  • 多言語コーディング (Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Rubyなど10言語以上)をサポート。
  • 設計・仕様策定能力 が向上し、熟練ソフトウェアアーキテクトの視点で機能分解・計画を自動実施。
  • 20万以上の実環境で訓練され、 システム設計から開発、機能追加、コードレビュー、テストまで 一貫対応。
  • Web、Android、iOS、Windows等の フルスタック開発 に対応、サーバーAPIやビジネスロジック、データベースもカバー。
  • 評価基準として VIBE Pro を新設し、より複雑・高精度なタスクでOpus 4.5と同等のパフォーマンスを実証。
    • SWE-Bench Verifiedの異なるハーネスでも Opus 4.6を上回るスコア を記録。

サーチ・ツール活用能力

  • BrowseCompやWide Search等のベンチマークで 業界最高水準のツール呼び出し・検索性能 を実証。
  • 未知の環境下でも 安定した汎化能力 を発揮。
  • RISE(Realistic Interactive Search Evaluation)により 専門家レベルの検索タスク も高精度で対応。
  • エージェント的タスク での意思決定も向上、 M2.1比で約20%ラウンド削減 しつつ高効率で課題解決。

オフィスワーク最適化

  • 実務納品レベルのアウトプット を目指し、金融・法務・社会科学の専門家と連携して訓練データを構築。
  • Word、PowerPoint、Excel等の 高付加価値業務シナリオ に最適化。
  • 内部評価フレームワークGDPval-MMで 成果物品質と専門性、トークンコストを総合評価
  • 他主流モデルと比較し 平均勝率59.0% を記録。

効率・コストパフォーマンス

  • 100トークン/秒のネイティブ提供速度 で、他の先端モデルの約2倍のスピードを実現。
  • 強化学習により 推論効率・タスク分解最適化 が促進。
  • SWE-Bench Verifiedでは M2.1比で37%高速化、コストは Claude Opus 4.6の10% に抑制。
  • M2.5-Lightning(100トークン/秒)とM2.5(50トークン/秒)を用意し、 用途に応じて選択可能
    • 100トークン/秒で1時間$1、50トークン/秒なら$0.3。
    • 年間フル稼働でも$10,000で4インスタンス維持可能。

モデル進化と強化学習スケーリング

  • 3.5ヶ月でM2→M2.1→M2.5と 急速な進化 を実現。
  • SWE-Bench Verifiedでの進歩速度は Claude、GPT、Gemini系列を大きく上回る
  • 強化学習スケーリング が進化の原動力。
    • 社内業務を訓練環境化し、 数十万のRL環境 を構築。
    • 独自のForgeエージェントネイティブRLフレームワークを開発、 柔軟なエージェント統合40倍の訓練速度向上 を実現。
    • CISPOアルゴリズムやプロセス報酬機構により MoEモデルの安定性とユーザー体験の両立 に成功。

MiniMax Agentへの統合と実用事例

  • MiniMax Agent にM2.5を全面展開、 オフィススキル を標準化し業務自動化を推進。
    • ファイル種別に応じたスキル自動ロードで 品質向上
    • 業界特化のExpertを作成可能、 10,000以上のExpertがユーザーにより構築済み
    • 研究や金融モデリング等、 業界標準手順や独自ロジックを自動適用 した納品物生成が可能。
  • MiniMax社内でも 全タスクの30%をM2.5が自律完了、新規コミットコードの80%がM2.5生成。

まとめと今後の展望

  • MiniMax-M2.5は 速度・コスト・汎用性・実用性 の全てで従来を凌駕。
  • エージェント自動化・生産性向上 の新たな基盤として、今後も継続的な能力向上を目指す方針。

Hackerたちの意見

このリリースをめっちゃ楽しみにしてた!MiniMax M2.1は今一番使ってるモデルで、速いし安いし、ツール呼び出しも優秀なんだよね。開発にはAntigravityとClaudeも使ってるけど、AIワークフローではまずMiniMaxを選ぶし、コード作業にはGLM、深い英語分析が必要な時はKimi K2.5を使ってる。まだセルフホスティングはしてないけど、将来的に必要になった時のために、中国のOSSモデルを使うのが好きなんだ。あと、オープンクローアシスタントの動力源にも使ってるんだけど、これが速さ、質、コストのバランスが一番いいと思う。> モデルを100トークン/秒で1時間連続して動かすのにたったの1ドルかかる。50トークン/秒だと、コストは0.30ドルに下がるよ。

!!!!!! 信じられないくらい安い!!!!! OpenRouterで探してみるわ。

AIワークフローではMiniMaxを最初に使って、コード作業にはGLM、深い分析にはKimi K2.5を使ってる。これらのモデルがフロンティアラボを正直に保つのはいいことだね!APIを使ってるのか、月額プランを使ってるのか聞いてもいい?月額プランはスロットルやリセットがあるの?編集:MM2.1が最も経済的だし、K2.5が一般的に最強だと思う。

うちの会社がもっとこういうLLMをGithub Copilot経由で使わせてくれたらいいのに。OpenAi、Anthropic、GoogleのLLMに縛られてて、月の初めの週からクレジットが消えちゃうんだよね。

うーん。ベンチマークが良すぎる気がするし、彼らがこのモデルをトレーニングする方法について言ってることも面白いけど、実際にどれだけ新しいのかは分からないな。一般的に、ベンチマークはモデルの客観的な特性や、同じ研究所のモデルに対する過去の経験に基づいて、どれだけ信じるかを調整してる。例えば、Kimi K2.5のベンチマークは信じやすいと思ってる。彼らのモデルは質が非常に良くて、壊れやすくなく、ちゃんとした知性が感じられるから。GLM 5には少し期待を持ってるけど、過去のベンチマークが彼らのモデルの能力を誇張してると思う一方で、モデル自体はそれなりに優秀だと思うし、モデルのサイズを2倍にしたり、新しいアーキテクチャを導入したり、アクティブパラメータの数を増やしたりしてるから、彼らが主張してるベンチマークに実際に達する可能性もあるかなと思う。一方で、MiniMaxは全然優秀だと思ったことがない。いつも壊れやすくて、編集をミスったり、簡単なJavaScriptコードでもフォーマットを崩したり、エラーループに入ったり、すぐにコンテキストが腐ったりする。個人的には、彼らが主張してるパフォーマンスを出すには小さすぎると思う。

より良くて安いモデルが広く手に入るようになるといいな。競争はビジネスにとって良いことだから。ただ、ベンチマークの主張にはもっと慎重になってる。MiniMax 2.1はまあまあだけど、賢いとは言えない。もっと重要な問題は、MiniMax 2と2.1がハッキングを助長する傾向が強いこと。テストが実際に失敗してるのに、意味不明なテストレポートを書いたりすることが多い。時には、既存のコードベースを変更して新しいコードを「通過」させることもあって、本来は自分のコードを修正すべきなのに。Artificial AnalysisはMiniMax 2.1のコーディングインデックスを33に設定していて、フロンティアモデルからはかなり遅れてると思う。これが妥当だと感じてる。

俺もこのLLMモデルのいくつかで同じことを感じた。例えば、アルゴリズムの問題でテストするのが好きなんだけど、実際に問題を解けないと、テストケースをアルゴリズム自体にハードコーディングし始めることがあるんだよね。DeepSeekもその時期があったし、最近のモデルでもまだやってるのがある。

MiniMax 2.1はデータ解析のタスクにはあまりうまくいかなかった、エラーが多かったんだ。でも、こっちの方がコストに対して驚くほどうまくいってるよ:https://openrouter.ai/xiaomi/mimo-v2-flash

時々、新しいコードを「通す」ために既存のコードベースを変えてしまうことがあるんだよね。本当は自分のコードを修正すべきなのに。MiniMaxは試してないけど、GPT-5.2-Codexにはこの問題がある。昨日、Pythonの型エラー(明示的に間違った型で宣言された変数 — 修正は簡単だった)を観察してたら、キャストを追加してたんだ。「キャスト」っていうのは、Python用語で「この式の型をオーバーライドする」って意味。だから、実際に修正してキャストを使わないように言ったら、プログラムのあちこちにAnyを散りばめ始めたんだ。「Any」っていうのは、「この値を理解しようともしないし、警告もしない」っていう、ひどいPython用語なんだよね。

ペリカンは認識できるけど、あまり良くないな。自転車のフレームにバーが欠けてる。 https://gist.github.com/simonw/61b7953f29a0b7fee1f232f6d9826...

自転車に乗ったタコに切り替えた方がいいよ、もっと難しいから。

うーん、フロントフォークがない方が、今までのモデルが作ってきた(リアホイールのマウントに見える)操縦できないフロントホイールマウントより悪いかどうかはわからないな。むしろ、見た目はそれっぽいけど実際には機能しないものを作るより、バイクのデザインにおける未解決の問題を認めるような感じかも。コードの「TODO」コメントみたいなもんだね。それに、バイクの上のペリカンの位置はちょっと awkward だけど、ペリカンの比較的短い足に解剖学的には合ってるんだよね。実際、子供の頃に似たような位置で大人用の自転車に乗ろうとしたことを覚えてるよ。

平均的なコンピュータで動く言語特化型のLLMがあったらいいよね。例えば、Python 3+や特定のフレームワーク、特定のコードリポジトリだけでトレーニングされたLLMとか。そうすれば、コストを抑えるために、インターネット検索用の別のモデルを使っていろんなことを実装できるし。もしかしたら、何も分かってないかもしれないけど(笑)

こういうディスティルのようなものは可能だと思うけど、マルチランゲージのトレーニングがLLMには本当に役立つと思う。

これは面白いけど、手頃な価格について言及していて、運用コストが約1ドル/時間だって言ってた。これは、私が月200ドルのプランでClaude Codeに払ってる金額と同じくらいだね。実際には、時々3つのインスタンスを同時に立ち上げて、1日で60時間くらい稼働させてるから、これは文字通りの話じゃないんだ。もし本当に連続して使えるものが出てきたら面白いと思うけど、今はちょっと分からないな。誰かが24/7で実際に使うものがあったら興味あるな。

M2は見た中で最もベンチマックスされたモデルの一つだった。SWE-Bの結果と、トレーニングされていないタスクとの間に大きなギャップがある。2.5もリストに入れよう。https://brokk.ai/power-ranking

NNN百万ドルのキャップを持つティア2企業が競争力のあるものをリリースしていないのは興味深いね。ビッグ4のラボと中国のラボの戦いだ。ティア2はなし。

ミストラルがあるよ。

まあ、真剣なテストじゃないけど、M2.5をOpenCodeでちょっと試してみたんだ。すごくシンプルなタスクで、ここでの最後のコミットかその前のコミットに相当するやつね[0]。結果は本当にひどかった。これは250行の自己完結型のスタンドアロンスクリプトで、やることはすごく簡単なんだ。M2.5は、Opus 4.6が曖昧なヒントでできる結果を得るために、もっと詳細なプロンプトが必要だったよ。[0]: https://github.com/oxidecomputer/console/pull/3070/commits