世界を動かす技術を、日本語で。

Devstral

概要

  • Devstral は、ソフトウェア開発向けのエージェント型LLMであることを発表
  • Mistral AIAll Hands AI の協力で開発され、SWE-Bench Verifiedで高い性能を達成
  • Apache 2.0ライセンス で無償公開、ローカルやエンタープライズ用途に最適
  • 他のオープン・クローズドモデルと比較して大幅な性能向上を実現
  • APIや各種プラットフォームで利用可能、今後の拡張も予定

Devstral: ソフトウェア開発タスク向けエージェント型LLMの紹介

Devstralの特徴と開発背景

  • Devstral は、ソフトウェアエンジニアリングタスク専用の エージェント型LLM であることを強調
  • Mistral AIAll Hands AI の共同開発による新モデルを提案
  • SWE-Bench Verifiedベンチマークで、全オープンソースモデルを大きく上回る性能を確認
  • Apache 2.0ライセンス で公開し、コミュニティによる活用やカスタマイズを促進することを目的とする
  • ローカルやエンタープライズ利用、コーディング支援ツールへの組み込みなど多様なユースケースに対応可能

ソフトウェア開発向けエージェント型LLMの意義

  • 従来のLLMは、関数作成やコード補完など単体タスクには優れているが、現実の開発課題には弱点を持つことを指摘
  • 実際の開発では、大規模コードベースの文脈把握、複雑な部品間の関係性特定、微細なバグ検出などが必要であることを確認
  • Devstral は、実際のGitHub Issue解決に特化した訓練を行い、OpenHandsやSWE-Agentなどのコードエージェント基盤上で動作することを強調
  • テストケースとのインターフェースを明確に定義することで、現実的なソフトウェア開発課題への対応力を高めることを目的とする
  • SWE-Bench Verified(500件の実GitHub Issueで構成)で 46.8% のスコアを達成し、従来のSoTAモデルを6ポイント以上上回ることを確認

性能比較と評価

  • OpenHands(All Hands AI提供)上での同条件評価において、Deepseek-V3-0324(671B)、Qwen3 232B-A22Bなどの大規模モデルを上回る性能を示すことを確認
  • カスタムスキャフォールドを含む幅広い比較においても、クローズドソースモデルを多数上回る性能を記録
  • 例として、GPT-4.1-miniを20%以上上回る性能を達成することを強調
  • 性能比較表により、Devstralの優位性を明確に示すことを確認
  • SWE-Bench Verifiedを基準に、他モデルとの差異を定量的に示すことを重視することを提案

柔軟な導入・運用オプション

  • RTX 4090Mac(32GB RAM) など、一般的なハードウェアで動作可能な軽量設計であることを強調
  • OpenHandsなどのコーディングプラットフォームを介し、ローカルコードベースとのインタラクションや迅速な課題解決を実現することを提案
  • ドキュメントやチュートリアル動画を通じて、ユーザー自身による導入・体験を推奨
  • エンタープライズ用途では、プライバシーやセキュリティ要件の厳しいリポジトリにも適用可能であることを強調
  • エージェント型コーディングIDEやプラグイン、開発環境への組み込みにも適した選択肢であることを訴求

利用方法と提供プラットフォーム

  • Apache 2.0ライセンス で無償公開し、コミュニティによる活用・自律型ソフトウェア開発の加速を支援することを明言
  • モデルカードからの体験、API(devstral-small-2505)での利用、Mistral Small 3.1と同価格($0.1/M入力トークン、$0.3/M出力トークン)での提供を案内
  • HuggingFace、Ollama、Kaggle、Unsloth、LM Studioなど各種プラットフォームでのダウンロード・セルフデプロイを推奨
  • エンタープライズ向けには、プライベートコードベースでのファインチューニングや継続事前学習、他モデルへの能力蒸留など高精度カスタマイズにも対応可能であることを提案
  • 導入・カスタマイズ要望については、Applied AIチームへの問い合わせを推奨

今後の展望とフィードバック募集

  • Devstral はリサーチプレビュー段階であり、ユーザーからのフィードバックを歓迎することを明言
  • 今後、より大規模なエージェント型コーディングモデルのリリースを数週間以内に予定していることを告知
  • チームでの導入相談や、モデル・プロダクト・ソリューションに関する問い合わせも随時受け付けることを案内
  • コミュニティとの連携強化、今後の発展に向けた協力を呼びかけることを提案
  • 継続的な改善・拡張に取り組む姿勢を強調することを確認

Hackerたちの意見

すごい。モデルをいくつか手に入れようとしてたら、LLamaIndexのツールサポートをいじってるときにこれを見つけたんだ。エージェント的なコーディングをちょっと組み合わせたものがあって、いろんなモデルを試してたんだけど、ReActを使ってツールサポートがないモデルを取り入れようとしてたら、これが突然現れた!でも、このモデルをエージェントシステムで使おうとすると「これをするためのツールがない」と言われちゃうんだ。いろんなエージェントプロンプトを「fooツールを使ってbarをする」と明示的に言うように修正してみたけど、まだうまくいってない。使ってるToolSpecは全部注釈付きのPydanticオブジェクトで、他のモデルはこれらのツールをどうにか使えるようにしてるのに。

制約された出力を使ってツールスキーマを強制することができるよ。ちょっと手助けがあれば、どのモデルでもできる。

最近、最初に見る数字はOllama経由のファイルサイズなんだけど、このモデルは14GBだね。M2 Macでその数字はモデルが必要とするメモリの大体の目安になる(通常は10%くらいプラス)から、他のアプリケーションを動かすためにどれくらいRAMが残るか知りたいんだ。20GB未満だと、他のものとあまり干渉しないことが多い。このモデルは期待できそうだね!

うん、同意するよ。モデルをローカルで動かしてみたけど、いい印象を持ってる。いくつかのruby/rspecのトラブルをテストしてみたけど、うまく処理してくれた。大きなコンテキストをテストするために、aiderでも試してみるつもりだよ。

ローカルモデルでうまく動くエージェント系の開発ソフトウェアでおすすめはありますか?Cursorを使ってみたんだけど、ちょっとがっかりしてる。エディタとChatGPTを行ったり来たりする方がいい結果が出るし、localforgeやaiderも試したけど、ローカルモデルだとちょっと遅いんだよね。

Apache 2.0ライセンスがあるのはいいね、つまりよく理解されているライセンスで、条件が多い「オープンウェイト」ライセンスじゃないから。

これは基本的にMistralのニッチだね。一般的に倫理的だと見なされることをしているなら、私の意見ではGemma 3を使うべきだよ。そうじゃない時は… ApacheライセンスのLLMがあるから。

ここにいる誰かがツールを提案してくれたり、少なくともどこを探せばいいか教えてくれたらいいな。MacBook Airのような比較的低電力のマシンでローカルに動かせる最新のモデルって何?マシンスペックに応じて何が実現可能かを追跡している人はいるのかな?「Apple Intelligence」じゃないけど、特定のタスクのためにollamaに2〜3モデルを保持する価値があるか、パフォーマンスが微妙ならもっと安定したオールラウンダーモデルがあるかをテストせずに知りたいな。

とりあえず試してみることをおすすめするよ!(いくつかのモデルのためのディスクスペースがあればね)。llama.cpp[0]はダウンロードしてビルドするのが簡単で、MシリーズのMacBook Airに対するサポートも良いよ。私は普段LMStudio[1]を使ってるけど、ChatGPTやClaudeのウェブページみたいな使いやすいインターフェースがあって、プログラム内からモデルを検索してダウンロードできるんだ。LMStudioが始めるには一番簡単な方法だし、たぶんそれだけで十分だよ。M2 MacBook Airでよく使ってるけど、本当に便利だよ。[0] - https://github.com/ggml-org/llama.cpp [1] - https://lmstudio.ai/

ローカルで動かせる最良の一般モデルは、おそらくGemma 3のどれかのバージョンか最新のMistral Smallだね。WindowsマシンではVRAMに制限されるから、システムRAMは使える速度でモデルを動かすには帯域幅が足りない。MシリーズのMacでは、システムメモリがオンダイで速いから使えるよ。動かせるのは、トータルのRAMからMacOSが使う分と他のプログラム用のスペースを引いたものになる。モデルがどれくらいのスペースを必要とするかは、HuggingFaceやホスティングされている場所での量子化された(低精度の)モデルのサイズを見ればわかる。Q4_K_Mが良いデフォルトだね。ざっくり言うと、これはパラメータのサイズの半分ちょっとになるはず、ギガバイト単位で。Devstralの場合は14.3GBだね。それに加えて、コンテキストを保存するために1-8GBが必要になるよ。例えば、32GBのMacbook AirはDevstralを14.3+4GBで使えるから、システムとアプリ用に約14GB残る。16GBのMacbook AirはGemma 3 12Bを7.3+2GBで使えて、他のすべてに約7GB残る。8GBのMacbookはGemma 3 4Bを2.5GB+1GBで使えるけど、これはやる価値がないかもね。

コーディングサポートとスパムフィルタリングにはqwen3:30b-a3b-q4_K_Mを使ってて、画像認識/タグ付け/説明にはqwen2.5vl:32b-q4_K_M、たまにgemma3:27b-it-qatで執筆してる。全部Ollama経由で、統一されたインターフェースを提供してくれるから、Emacsやコマンドラインのllmツール、Clojureプログラムからアクセスしてる。まだ「これが一番」ってモデルはないみたいだね。M4 Maxで64GBのRAMを使ってるけど、128GBモデルにしておけばよかったな。大きなDockerコンテナを動かすと約24GBのRAMを消費するから、ちょっと厳しくなるんだ。

SWE-Benchのスコアは、このサイズのオープンソースモデルにしては非常に高いね。46.8%はo3-mini(Agentless-lite使用)やClaude 3.6(AutoCodeRover使用)よりも良いけど、Claude 3.6のAnthropicのプロプライエタリスカフォールドには少し劣る。でも、ほぼ無料でこれを動かせることを考えると、非常に特異なモデルだね。

確認なんだけど、Claude 3.7のことを言ってるの?

すごいけど、ベンチマークがちゃんと機能してないんじゃないかって疑っちゃう。

彼らはSWE bench liteのことを言ってるんだよね。君もそうだって確認したいだけなんだ。

Mistralが実際のオープンソースモデルをリリースしてくれるのはいいね。ヨーロッパには競争力のあるAI企業が必要だし、最近のモデルは本当に素晴らしいよ。Le Chat Proにお金払ってるけど、めっちゃいい。Mistral Smallもすごく良いし、Mistral統合のスタートアップも作ってるんだ。

彼らが提示しているベンチマークは信じられないな。まだ試してないけど、Mistralのモデルはどれも私のベンチマークではLlamaと同じくらいの下の方に位置してた。実際のパフォーマンスが彼らが主張しているようなものであれば、かなり驚くよ。

最近、All Handsの他のモデルを使ってみたけど、Mistralをベースにしてると思う。今のところの一般的な印象は、Claude 3.7 Sonnetには及ばないけど、かなり良いよ。「AIペアコーディングアシスタント」としては十分すぎるし、大きなアーキテクチャの作業にも適してる。ただ、段階的にやる必要があるけどね。

俺も彼らを信じてない。自分たちでテストしないとダメだと思う。例えばQwen3は俺にとっては後退だし、GLM4はみんなが「HTMLだけが得意」って言ってるのに俺の現在の定番なんだ。70bのcogitoモデルもすごくいいけど、あんまり注目されてない。プロジェクトや使ってる言語によると思うけど、これも試すの楽しみにしてるよ :)

EUがこのエージェント/モデルの作成費用を負担すべきかもね。本当に約束を果たすなら、Mistralは自分たちのやるべきことに集中できるし、私たちにとってはEUが賢くお金を使ったってことになる。

EUがこのモデルの作成費用を負担すべきかも 俺の税金がApache/MITライセンスのモデルに流れるのは全然構わないよ。たとえそれが基本的な代替手段を維持するためだけでも、みんなが正直でいるためには重要だと思う。大企業がこれを独占するのは避けたいね。

確かEUがAIスタートアップ用にスパコンをいくつか買ったはずで、Mistralがそのプログラムのパートナーなんだよね。

24GB RAMのグラフィックカードがない人向けに、8GB RAMのカードでこのモデルを動かしてみたけど、ollamaでは簡単なタスクにはまあまあ動くよ。ただ、大きなコンテキストウィンドウを使うような時間に敏感なタスクにはAPIを使った方がいいと思う。 総時間: 35.016288581s 読み込み時間: 21.790458ms プロンプト評価回数: 1244トークン プロンプト評価時間: 1.042544115s プロンプト評価レート: 1193.23トークン/s 評価回数: 213トークン 評価時間: 33.94778571s 評価レート: 6.27トークン/s 総時間: 4m44.951335984s 読み込み時間: 20.528603ms プロンプト評価回数: 1502トークン プロンプト評価時間: 773.712908ms プロンプト評価レート: 1941.29トークン/s 評価回数: 1644トークン 評価時間: 4m44.137923862s 評価レート: 5.79トークン/s APIコールだと約20%の時間で終わるから、推奨されるグラフィックカードがないとちょっと遅く感じるってだけなんだ。ベンチマークに関しては、モデルサイズに対して異常にうまく調整されてるようだけど、開発の一環としてそれに対してテストしてるだけだと思う。正直、IT系の人にマーケティングされてるLLMはみんな同じことやってると思うから、「使えるか?」のざっくりした指標としては十分だと思うよ。

みんなはローカルでこれを動かすとき、どんなハードウェア使ってるの?この目的でFrameworkデスクトップを予約注文しようか考えてたけど、ちゃんと動くノートパソコン(理想はLinux)があればそれでもいいかな。[0] https://frame.work/desktop

一般的には、選択肢は0) グラフィックカードが1枚以上あるデスクトップPC、または1) Apple SiliconのMacだと思うよ。

All Hands AIには、LMStudioを使ってMacBookでDevstralをローカルで実行するための手順が載ってるよ:https://docs.all-hands.dev/modules/usage/llms/local-llms#ser... 同じページには、GPUでVLLMを通してモデルを実行するための手順も書いてあるけど、量子化には対応してないみたいだから、指示には「少なくとも2つのGPUが必要」って書いてあるし、複数のGPUが必要になるかもね。

AMDはちょっとマイナーな選択肢になるから、nVidiaの方が成功する可能性が高いし、面倒なトラブルも少ないと思うよ。

M4 maxは128GBのRAMを搭載してる。LM studio MLXでフル128kコンテキストで動くけど、最初のプロンプト処理に1分かかるから、ちょっと長いね。これのためにノートパソコンを買うつもりはないな。新しいAMDの32GB GPUが出るのを待った方がいいと思う。もしノートパソコンが欲しいなら、私のM4 maxもここかそこらでしか使えないくらい遅いと感じてるよ。これを動かすと熱くなってすぐにバッテリーが減っちゃうから、フルスピードで使うにはドッキングしないとダメだね。