世界を動かす技術を、日本語で。

Magistral — Mistral AIによる初の推論モデル

概要

  • Mistral AIが初の推論特化モデル Magistral を発表
  • 高精度・多言語・透明性 を重視した設計
  • オープン版とエンタープライズ版の 2バージョン を提供
  • 専門領域対応や 高速応答 など多様な用途に最適
  • オープンソース化による コミュニティ貢献 と今後の発展

Magistral:Mistral AI初の推論特化モデル発表

  • Magistral は、Mistral AIが開発した 初の推論特化型言語モデル
  • 専門領域 における深い推論力、 透明な思考過程多言語対応 を重視した設計
  • 人間の思考のような 非線形的な論理展開 や洞察、発見の再現
  • 複雑な問題解決に必要な ステップバイステップの推論 をAIに委譲可能
  • 既存モデルの課題であった 専門性不足・透明性の欠如・多言語推論の不安定さ を克服

Magistralのバージョンと主な特徴

  • 2種類のモデルを同時リリース
    • Magistral Small :24Bパラメータのオープンソース版
    • Magistral Medium :より高性能なエンタープライズ版
  • 性能評価
    • Magistral Medium:AIME2024で 73.6%、多数決で 90%
    • Magistral Small: 70.7%、多数決で 83.3%
  • 多言語推論 :世界中の言語や文字体系に対応
  • 幅広い業務利用 :構造化計算、プログラム的ロジック、意思決定ツリー、ルールベースシステムなど

Le Chatによる高速推論と新機能

  • Le Chatの新機能Think mode・Flash Answers による 最大10倍の高速応答
  • Magistral Medium はリアルタイム推論とユーザーフィードバックに最適
  • ChatGPTとの速度比較 で圧倒的なトークンスループットを実現

透明性と解釈性重視の設計

  • 多段階的なロジック に特化したファインチューニング
  • ユーザーの言語 で思考過程をトレース可能
  • 一般的なLLMでは困難な 推論の可視化・検証 を実現

多言語対応と応用範囲

  • 英語・フランス語・スペイン語・ドイツ語・イタリア語・アラビア語・ロシア語・簡体中国語 などに特に強み
  • 法務調査、財務予測、ソフトウェア開発、クリエイティブライティングなど 多様な用途
  • 透明性・精度が重要な業務 での利用に最適

ビジネス・業界別活用例

  • リサーチ・戦略立案・業務最適化・データ駆動意思決定 に強み
  • 法務・金融・ヘルスケア・行政 など規制産業での 監査可能な推論
  • システム・ソフトウェア・データエンジニアリング における 段階的な設計・開発支援
  • 創作・コミュニケーション分野 での一貫性あるストーリーテリングや独創的な文章生成

利用方法・提供形態

  • Magistral Small :Apache 2.0ライセンスのオープンウェイトモデル
    • Hugging Faceでのダウンロード:https://huggingface.co/mistralai/Magistral-Small-2506
  • Magistral Medium :Le ChatやAPI、Amazon SageMaker、今後IBM WatsonX・Azure AI・Google Cloud Marketplaceでも提供予定
  • エンタープライズ・オンプレミス導入 :営業チームへの問い合わせ推奨

オープンソースコミュニティへの貢献と採用情報

  • Magistral Smallのオープンソース化 でコミュニティによる検証・改良・発展を推進
  • 既存オープンモデルは ether0・DeepHermes 3 等のプロジェクトで活用実績
  • AIイノベーション推進のための人材募集
    • 人工知能の民主化を目指すMistral AIでのキャリア機会

今後の展望

  • 素早いモデル改良サイクル による継続的な性能向上
  • 新たな論文・技術発表 で研究コミュニティとの連携強化
  • 多様な業界・用途への拡大 とAIの社会実装推進

Hackerたちの意見

GGUFに興味がある人のためにいくつか作ったよ。使ってみたい人は、https://huggingface.co/unsloth/Magistral-Small-2506-GGUF で確認してね。コマンドは、ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL か、./llama.cpp/llama-cli -hf unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL --jinja --temp 0.7 --top-k -1 --top-p 0.95 -ngl 99 だよ。llama.cppでは --jinja を使って、温度は0.7、top-pは0.95にしてね!それと、Ollamaのコンテキスト長を最低でも8Kに増やすのがいいよ:OLLAMA_CONTEXT_LENGTH=8192 ollama serve &。他の詳細は、https://docs.unsloth.ai/basics/magistral に載ってるよ。

彼らの論文も面白いよ! https://mistral.ai/static/research/magistral.pdf GRPOを編集したんだって:1. KLダイバージェンスを削除 2. 総長で正規化(Dr. GRPOスタイル) 3. アドバンテージのためのミニバッチ正規化 4. 信頼領域の緩和

でも、これはSFTの「蒸留」モデルで、RLで最適化されたやつじゃないよね?

いつもありがとう!

ベンチマークによると、このモデルは一発勝負の比較でDeepseek-R1に負けてるみたい。新しいR1バージョンと対決させてない可能性もあるし(記事にはそのことは書かれてない)、しかもコストが2倍以上だから、EUの一番のAI企業が最先端に追いつくのに苦労してるように見えるね。

「EUは規制でリードしている」とか言ってるけど、彼らは何を考えてるんだろうね。

ヨーロッパは、アメリカのテックジャイアンツに市場が開かれている限り、技術で追いつくことはないよ。テクノロジーには限界費用がないから、一つの場所に集めてどこでも売るのが理想だし、インフラと人材がすでにアメリカにあるから、EUのテクノロジーはニッチな製品を作る運命にあるね。イギリスは少し持ってるし、フランスもいくつかあるけど、それだけだ。実行可能な代替手段は、アメリカと問題を抱えている国、つまり中国とロシアだけ。中国は強力な競争相手を生み出していて、最前線にいるよ。それに、規制とは関係ない話だね。アメリカの50州にはアメリカの規制があって、ほとんどが1つの州で起こっているし、他の州もインフラを持っているけど、これは世界の他の地域でも同じことが言える。EUとアメリカの関係がトランプやマスクのレベルに達したら、EUも最先端のものを持てるかもしれない。影響力のあるAI研究者は、ヨーロッパ(イギリス含む)、イスラエル、カナダから来てるしね。例えば、イリヤ・サツケバーはこの前、母校のカナダで講演してたし。アンドレイ・カルパティはスロバキア出身だし、イギリス人、フランス人、ポーランド人、中国人、ドイツ人など、たくさんの先駆者がいるよ。才能のかなりの部分はすでにアメリカ以外の人たちで、アメリカ以外で活動する理由が必要なんだ。中国はその理由を持ってるし、世界の情勢を考えると、ヨーロッパも3年半以内に理由を見つけるんじゃないかな。

俺もそう思った。でも、どうやって違うのかは分からないな。OpenAIやGoogleみたいな巨大企業と競ってるのに、たった200人しかいないんだもん。Anthropicは1000人以上いるし、DeepSeekも200人未満だから、比較するのは妥当だと思う。

たとえ能力が劣っていても、トレーニングをコントロールできるモデルを持つことは、世界の主要な地域にとって戦略的に重要なんじゃないかな。でも、ユーザーの目には、ある程度まで遅れを取ると、実質的に使えなくなっちゃうよね。

Mistralの投資家を見てみると、Mistralがヨーロッパの企業から遠いことがすぐに分かるよ。俺の理解では、主にアメリカの企業が所有していて、EUや他の国の企業も少し関わってるみたい。 [0] https://tracxn.com/d/companies/mistral-ai/__SLZq7rzxLYqqA97j... (誤字修正済み)

ベンチマークによると、このモデルは一発勝負の比較でDeepseek-R1に負けてるみたい。まあ、MediumバリアントはDeepSeek-R1の約10倍小さいから、特に驚くことじゃないけどね(密度の高いモデルだし、MoEじゃないけど、それでも)。

これ、AIが生成したコメントみたいだね。「ベンチマークが示唆する」ってどういう意味?ベンチマークはすごく明確で、ページにそのまま載ってるじゃん。

Mistralをたまに使ってるけど、モデルの結果はだいたい素晴らしいし、しかも早いよね。最近、チームがベンチマークの勝利にばかり気を取られて、実際の結果が悪くなってる気がする。

他にオープンウェイトの推論モデルってどれくらいあるんだろう?一つの問題に対して複数の推論モデルを同時に動かすことってできるのかな?(できると思うけど)。面白いのは、彼らがSmallモデルをリリースして、Mediumはプレミアムサービスとして残してること。Mediumを時々使ってSmallでつなげたチェーンができるのかな?

Qwen 3とDeepSeek R1、Phi-4 Reasoningは、私が知ってる中で最高のオープンウェイトの推論モデルだよ。

ただDeepseekだけだと思うけど、それを消費者向けのハードウェアで動かせるようにしたものもあるよ、もし本当にやりたいなら。

Magistral Smallは、量子化すれば単体のRTX 4090や32GB RAMのMacBookに収まるよ。

彼らのニッチが小さなパラメータモデルにあるのは面白いね。

チャートにQwen3が含まれてたらよかったのに、今の推論の最先端だから。Qwen3-4Bは、利用可能な4つのベンチマークでほぼMagistral-22Bに勝ってるし、Qwen3-30B-A3Bはさらに先を行ってるよ。

これ、めっちゃ速いね。

彼らはCerebrasと推論の契約を結んでるよ。 https://www.cerebras.ai/blog/mistral-le-chat

このマーケティングコピーのエムダッシュの数って、モデルが出す出力の種類を示してるのかな?もしそうなら、ちょっと抑えた方がいいかもね。

エムダッシュがもし評価されてるなら、すごく独特で whimsical だよね!

弁護士じゃない限りね。私たちは彼らが大好き。

ベンチマークの選択がこんなに散らばってて限られてる理由がわからない。Magistral MediumとDeepseek V3、R1、あと他の近い重みのMistral Medium 3だけを比較してるだけじゃん。Magistral Smallは完全に外されてるし、Alibaba Qwenやo3、o4のミニバージョンとの比較もないのはなんで?

ツールに関して見つけた唯一の言及はこれだね: 「外部ツールやAPIを使った段階的なアクションを通じて、プロジェクトの計画、バックエンドアーキテクチャ、フロントエンドデザイン、データエンジニアリングを大幅に改善します。」これって、ツール呼び出しでトレーニングされたってことかな?もしそうなら、思考や推論の中でツール呼び出しをするのか、それともメインのテキストの中でやるのか、ちょっと不明だね。