概要
Leanstral 1.5は、6Bアクティブパラメータを持つ無料のApache-2.0ライセンスモデル。 miniF2FやPutnamBenchで高い性能を発揮し、実世界のコード検証でも成果。 3段階のトレーニングとCISPOによる強化学習を採用。 Hugging Faceと無料APIで完全オープンソース提供。 Lean 4環境で実用的な証明工学を可能にする最新モデル。
Leanstral 1.5の特徴と進化
- Leanstral 1.5 は、 119B総パラメータ 中 6Bアクティブパラメータ を持つ無料モデル
- Apache-2.0ライセンス で完全オープンソース、商用利用や改変も自由
- miniF2F を完全制覇、 PutnamBench では672問中587問を解決
- FATE-H (87%)、 FATE-X (34%)で新たな最先端性能達成
- 実世界のコード検証 に強く、57リポジトリで5件の未発見バグを自動発見
- Hugging Face および 無料API 経由で即利用可能
- Lean 4 環境での実用的な証明工学を強力に推進
トレーニング手法
- 3段階学習 (ミッドトレーニング→教師ありファインチューニング→CISPOによる強化学習)を採用
- マルチターン環境
- 定理文を与えられ、証明または反証を試みる
- Leanコンパイラのフィードバックを受けながら繰り返し証明を改善
- コードエージェント環境
- 開発者のようにファイル編集、bashコマンド実行、Lean言語サーバでゴールやエラーをリアルタイム確認
- 長期的な証明課題や補助補題生成、複数回の文脈圧縮を通じて証明ワークフロー全体を習得
- SafeVerify を用いた最終検証で正確性を保証
ベンチマーク評価
- miniF2F
- 初等問題からIMOレベルまで、多様な数学分野で100%達成
- PutnamBench
- 672問のうち587問を解決、コストは1問あたり約$4(他モデルは$300以上も)
- FATE-H/X
- 抽象代数分野で最先端(87問/34問)を記録
- FLTEval
- Fermat’s Last Theoremリポジトリの実際のプルリクエストを用いた実用証明工学評価
- Pass@1を21.9→28.9、Pass@8を31.9→43.2に向上
- Opus 4.6を1/7のコストで上回る成績
- 大規模トークン予算 でのスケーリング性能も顕著
- 50kトークンで44問→4Mトークンで587問と着実に向上
コード検証の実例
- AVL木の時間計算量証明
- 挿入・削除のO(log n)保証を実装コード上で厳密に証明
- 2.7Mトークン、22回の文脈圧縮を経て完全な証明を構築
- バグ発見パイプライン
- RustコードをLeanに変換し、Leanstralが意図推論と正しさ性質生成
- 57リポジトリ中47件の性質違反を検出、11件が本物のバグ、うち5件は未報告
- datrs/varintegerのzigzagデコード関数の符号化バグなど、従来のテストやファジングで見逃されがちなエッジケースも自動発見
利用方法
- Apache-2.0ライセンス で自由に利用可能
- Hugging Face でモデルウェイト配布、 無料API (leanstral-1-5)も提供
- Mistral Vibe 環境推奨
- API Keyの取得
- Mistral Vibeのセットアップ
uv tool install mistral-vibeuv tool update mistral-vibevibe --setup
- Leanstral 1.5のインストール
/leanstallexit
- エージェントの起動
vibe --agent lean
- Lean LSP MCPのインストール(推奨)
~/.vibe/config.tomlにMCPサーバ設定を追加- MCPサーバがなければ
mcp_servers = []を削除
- 証明やデバッグ、リポジトリ貢献 などをLeanstralに依頼するだけで利用開始可能
まとめ
- Leanstral 1.5 は、 証明工学・形式検証・バグ発見 における新たな実用基準
- Lean 4 と連携し、 研究・産業問わず幅広い応用 が期待される
- 無料・オープンソース で今すぐ導入可能