Devstral

2025年5月21日原文(mistral.ai)

概要

Devstral は、ソフトウェア開発向けのエージェント型LLMであることを発表
Mistral AI と All Hands AI の協力で開発され、SWE-Bench Verifiedで高い性能を達成
Apache 2.0ライセンス で無償公開、ローカルやエンタープライズ用途に最適
他のオープン・クローズドモデルと比較して大幅な性能向上を実現
APIや各種プラットフォームで利用可能、今後の拡張も予定

Devstral: ソフトウェア開発タスク向けエージェント型LLMの紹介

Devstralの特徴と開発背景

Devstral は、ソフトウェアエンジニアリングタスク専用の エージェント型LLM であることを強調
Mistral AI と All Hands AI の共同開発による新モデルを提案
SWE-Bench Verifiedベンチマークで、全オープンソースモデルを大きく上回る性能を確認
Apache 2.0ライセンス で公開し、コミュニティによる活用やカスタマイズを促進することを目的とする
ローカルやエンタープライズ利用、コーディング支援ツールへの組み込みなど多様なユースケースに対応可能

ソフトウェア開発向けエージェント型LLMの意義

従来のLLMは、関数作成やコード補完など単体タスクには優れているが、現実の開発課題には弱点を持つことを指摘
実際の開発では、大規模コードベースの文脈把握、複雑な部品間の関係性特定、微細なバグ検出などが必要であることを確認
Devstral は、実際のGitHub Issue解決に特化した訓練を行い、OpenHandsやSWE-Agentなどのコードエージェント基盤上で動作することを強調
テストケースとのインターフェースを明確に定義することで、現実的なソフトウェア開発課題への対応力を高めることを目的とする
SWE-Bench Verified（500件の実GitHub Issueで構成）で 46.8% のスコアを達成し、従来のSoTAモデルを6ポイント以上上回ることを確認

性能比較と評価

OpenHands（All Hands AI提供）上での同条件評価において、Deepseek-V3-0324（671B）、Qwen3 232B-A22Bなどの大規模モデルを上回る性能を示すことを確認
カスタムスキャフォールドを含む幅広い比較においても、クローズドソースモデルを多数上回る性能を記録
例として、GPT-4.1-miniを20%以上上回る性能を達成することを強調
性能比較表により、Devstralの優位性を明確に示すことを確認
SWE-Bench Verifiedを基準に、他モデルとの差異を定量的に示すことを重視することを提案

柔軟な導入・運用オプション

RTX 4090 や Mac（32GB RAM） など、一般的なハードウェアで動作可能な軽量設計であることを強調
OpenHandsなどのコーディングプラットフォームを介し、ローカルコードベースとのインタラクションや迅速な課題解決を実現することを提案
ドキュメントやチュートリアル動画を通じて、ユーザー自身による導入・体験を推奨
エンタープライズ用途では、プライバシーやセキュリティ要件の厳しいリポジトリにも適用可能であることを強調
エージェント型コーディングIDEやプラグイン、開発環境への組み込みにも適した選択肢であることを訴求

利用方法と提供プラットフォーム

Apache 2.0ライセンス で無償公開し、コミュニティによる活用・自律型ソフトウェア開発の加速を支援することを明言
モデルカードからの体験、API（devstral-small-2505）での利用、Mistral Small 3.1と同価格（$0.1/M入力トークン、$0.3/M出力トークン）での提供を案内
HuggingFace、Ollama、Kaggle、Unsloth、LM Studioなど各種プラットフォームでのダウンロード・セルフデプロイを推奨
エンタープライズ向けには、プライベートコードベースでのファインチューニングや継続事前学習、他モデルへの能力蒸留など高精度カスタマイズにも対応可能であることを提案
導入・カスタマイズ要望については、Applied AIチームへの問い合わせを推奨

今後の展望とフィードバック募集

Devstral はリサーチプレビュー段階であり、ユーザーからのフィードバックを歓迎することを明言
今後、より大規模なエージェント型コーディングモデルのリリースを数週間以内に予定していることを告知
チームでの導入相談や、モデル・プロダクト・ソリューションに関する問い合わせも随時受け付けることを案内
コミュニティとの連携強化、今後の発展に向けた協力を呼びかけることを提案
継続的な改善・拡張に取り組む姿勢を強調することを確認

Hackerたちの意見

すごい。モデルをいくつか手に入れようとしてたら、LLamaIndexのツールサポートをいじってるときにこれを見つけたんだ。エージェント的なコーディングをちょっと組み合わせたものがあって、いろんなモデルを試してたんだけど、ReActを使ってツールサポートがないモデルを取り入れようとしてたら、これが突然現れた！でも、このモデルをエージェントシステムで使おうとすると「これをするためのツールがない」と言われちゃうんだ。いろんなエージェントプロンプトを「fooツールを使ってbarをする」と明示的に言うように修正してみたけど、まだうまくいってない。使ってるToolSpecは全部注釈付きのPydanticオブジェクトで、他のモデルはこれらのツールをどうにか使えるようにしてるのに。

└

制約された出力を使ってツールスキーマを強制することができるよ。ちょっと手助けがあれば、どのモデルでもできる。

最近、最初に見る数字はOllama経由のファイルサイズなんだけど、このモデルは14GBだね。M2 Macでその数字はモデルが必要とするメモリの大体の目安になる（通常は10%くらいプラス）から、他のアプリケーションを動かすためにどれくらいRAMが残るか知りたいんだ。20GB未満だと、他のものとあまり干渉しないことが多い。このモデルは期待できそうだね！

└

うん、同意するよ。モデルをローカルで動かしてみたけど、いい印象を持ってる。いくつかのruby/rspecのトラブルをテストしてみたけど、うまく処理してくれた。大きなコンテキストをテストするために、aiderでも試してみるつもりだよ。

└

ローカルモデルでうまく動くエージェント系の開発ソフトウェアでおすすめはありますか？Cursorを使ってみたんだけど、ちょっとがっかりしてる。エディタとChatGPTを行ったり来たりする方がいい結果が出るし、localforgeやaiderも試したけど、ローカルモデルだとちょっと遅いんだよね。

Apache 2.0ライセンスがあるのはいいね、つまりよく理解されているライセンスで、条件が多い「オープンウェイト」ライセンスじゃないから。

└

これは基本的にMistralのニッチだね。一般的に倫理的だと見なされることをしているなら、私の意見ではGemma 3を使うべきだよ。そうじゃない時は… ApacheライセンスのLLMがあるから。

ここにいる誰かがツールを提案してくれたり、少なくともどこを探せばいいか教えてくれたらいいな。MacBook Airのような比較的低電力のマシンでローカルに動かせる最新のモデルって何？マシンスペックに応じて何が実現可能かを追跡している人はいるのかな？「Apple Intelligence」じゃないけど、特定のタスクのためにollamaに2〜3モデルを保持する価値があるか、パフォーマンスが微妙ならもっと安定したオールラウンダーモデルがあるかをテストせずに知りたいな。

└

とりあえず試してみることをおすすめするよ！（いくつかのモデルのためのディスクスペースがあればね）。llama.cpp[0]はダウンロードしてビルドするのが簡単で、MシリーズのMacBook Airに対するサポートも良いよ。私は普段LMStudio[1]を使ってるけど、ChatGPTやClaudeのウェブページみたいな使いやすいインターフェースがあって、プログラム内からモデルを検索してダウンロードできるんだ。LMStudioが始めるには一番簡単な方法だし、たぶんそれだけで十分だよ。M2 MacBook Airでよく使ってるけど、本当に便利だよ。[0] - https://github.com/ggml-org/llama.cpp [1] - https://lmstudio.ai/

└

ローカルで動かせる最良の一般モデルは、おそらくGemma 3のどれかのバージョンか最新のMistral Smallだね。WindowsマシンではVRAMに制限されるから、システムRAMは使える速度でモデルを動かすには帯域幅が足りない。MシリーズのMacでは、システムメモリがオンダイで速いから使えるよ。動かせるのは、トータルのRAMからMacOSが使う分と他のプログラム用のスペースを引いたものになる。モデルがどれくらいのスペースを必要とするかは、HuggingFaceやホスティングされている場所での量子化された（低精度の）モデルのサイズを見ればわかる。Q4_K_Mが良いデフォルトだね。ざっくり言うと、これはパラメータのサイズの半分ちょっとになるはず、ギガバイト単位で。Devstralの場合は14.3GBだね。それに加えて、コンテキストを保存するために1-8GBが必要になるよ。例えば、32GBのMacbook AirはDevstralを14.3+4GBで使えるから、システムとアプリ用に約14GB残る。16GBのMacbook AirはGemma 3 12Bを7.3+2GBで使えて、他のすべてに約7GB残る。8GBのMacbookはGemma 3 4Bを2.5GB+1GBで使えるけど、これはやる価値がないかもね。

└

コーディングサポートとスパムフィルタリングにはqwen3:30b-a3b-q4_K_Mを使ってて、画像認識/タグ付け/説明にはqwen2.5vl:32b-q4_K_M、たまにgemma3:27b-it-qatで執筆してる。全部Ollama経由で、統一されたインターフェースを提供してくれるから、Emacsやコマンドラインのllmツール、Clojureプログラムからアクセスしてる。まだ「これが一番」ってモデルはないみたいだね。M4 Maxで64GBのRAMを使ってるけど、128GBモデルにしておけばよかったな。大きなDockerコンテナを動かすと約24GBのRAMを消費するから、ちょっと厳しくなるんだ。

SWE-Benchのスコアは、このサイズのオープンソースモデルにしては非常に高いね。46.8%はo3-mini（Agentless-lite使用）やClaude 3.6（AutoCodeRover使用）よりも良いけど、Claude 3.6のAnthropicのプロプライエタリスカフォールドには少し劣る。でも、ほぼ無料でこれを動かせることを考えると、非常に特異なモデルだね。

Hacker Newsで議論の続きを見る

ハクソク