Show HN: Sweep、次の編集オートコンプリート用のオープンウェイト1.5Bモデル

2026年1月22日原文(huggingface.co)

概要

Sweep Next-Edit は、次のコード編集を予測する 1.5Bパラメータモデル
Q8_0 GGUF形式 で量子化され、 ローカルPC で高速動作
4倍以上大きい他モデル よりも高精度・高速度を実現
JetBrainsプラグイン や Hugging Face で利用可能
オープンソース で、幅広いエディタへの組み込みが可能

Sweep Next-Edit 1.5B モデル概要

次のコード編集予測 を目的とした生成AIモデル
1.5B（15億）パラメータ による高精度な予測
Q8_0 GGUF形式 で量子化、軽量化実現
コンテキスト長8192トークン 対応
Qwen2.5-Coder をベースとしたモデル設計
500ms未満 の応答速度（スペキュレイティブデコーディング利用）
ローカル実行 可能、プライバシー保護に配慮
Apache 2.0ライセンス でオープンソース提供

主な特徴と利点

最近の編集履歴 をコンテキストに含める次編集予測型オートコンプリート
Cursor のような体験を JetBrainsプラグイン や VSCode/Neovim 等で実現可能
Mercury (Inception)、 Zeta (Zed)、 Instinct (Continue) 等の競合モデルよりも高精度
5種類のベンチマーク （カーソル上下予測、遠距離ジャンプ、標準FIM、ノイズ耐性等）で検証
正確な一致率 が実用性指標として最も相関が高い
プロンプト形式 の工夫により、小型モデルでも理解しやすい構成
- original/updatedブロック形式が最適解
SFT（教師あり微調整） ：パーミッシブライセンスのOSSリポジトリ約10万例を4時間/8xH100で学習
RL（強化学習） ：tree-sitterによる構文チェックとサイズ正則化で2000ステップ微調整
- SFTだけでは困難なエッジケース（パース不可や冗長出力）を改善

利用方法

run_model.py およびモデルファイルをダウンロード
llama-cpp-python と huggingface_hub をインストール
コマンド例：
- uv pip install llama-cpp-python huggingface_hub
- python run_model.py
run_model.py にて具体的なプロンプト例・利用方法を記載

導入・連携先

JetBrains用Sweep AIプラグイン で即利用可能
Hugging Face （https://huggingface.co/sweepai/sweep-next-edit-1.5b）でモデル配布
VSCode/Neovim 等、他エディタでの組み込みも推奨

コミュニティへの呼びかけ

オープンソースウェイト公開 により、誰でも高速・プライバシー配慮型オートコンプリートの構築が可能
VSCodeやNeovim等 のエディタ向け実装例も歓迎
技術ブログ や ベンチマーク詳細 も公開中

まとめ

Sweep Next-Edit は、軽量・高速・高精度な次編集予測モデル
ローカル動作 ・ オープンソース で、幅広い用途・エディタに対応可能
開発者コミュニティ による新たな活用事例やフィードバックを歓迎

Hackerたちの意見

いい仕事だね！次の編集のフレーミングが、実際のリファクタリングの進め方にすごく合ってる。トークンレベルのオートコンプリートよりもずっといいよ。差分フォーマットの洞察も特に面白いね。小さいモデルが統一された差分で苦労してるのは、俺も見たことあるし、シンプルなオリジナル/更新ブロックがノイズを減らして意図をキャッチするのに役立つってのも同意。インフラ面では、1.5Bモデルを8×H100で約4時間でトレーニングするのはすごいね。似たような中規模モデルを試してる人たちには、俺たちも分散型GPUアグリゲーター（io.netを使ったことがある）で同じようなワークロードを回して、クラウドのクォータ制限を避けつつコストを予測可能にしてるよ。ただ、自分でオーケストレーションをやらなきゃいけないっていうトレードオフはあるけどね。古い編集をコンテキストに含めたときにリターンが減少するのを見たか気になるな。大きなリポジトリだと、そのカットオフは難しいよね。

└

インフラ面では、1.5Bモデルを8×H100で約4時間でトレーニングするのはすごいね。トレーニングプロセスやデータセットについての詳細がないと比較は難しいけど、ほんとにそうなの？本気の質問だよ、俺は逆の印象を持ってたから。例えば、最近3Bモデルで146kエントリのデータセット（116kエントリには推論トレースがあるから、短くはない）を使って、1台のRTX 6000で7時間かけてフルファインチューニングをしたんだ。

└

君のコメントほぼ全部で同じ製品をさりげなく押してるね。もしこれが善意のコメントなら、製品名を編集して削除してほしい。必要ないし、グリーンアカウントでそれをやるとスパマーだと思われるよ。まずは自分を確立しよう。

これすごいね！リポジトリから次の編集のトレーニングデータをどうやって生成したのか、すごく興味ある。いろいろ注意点がありそうだし。君たちの洞察を聞きたいな。改めて素晴らしい仕事だね！次に何を作るのか楽しみにしてるよ。

いいね！それについてのブログ記事もすごく面白い。ネオビム用のプラグインが早く作られるといいな。 https://blog.sweep.dev/posts/oss-next-edit

ジェットブレインズがAIを実装するのがこんなに下手だとは驚きだね。数年もLLMがあるのに、誰かがもっと良いものを作れる自信を持って会社を立ち上げるまでになってるなんて。これは本当に面白いし、技術的な解説も興味深いね！

すごくクールだね！1.5Bはローカルで動かせるサイズだって聞いてるけど…実際にSweep AIのジェットブレインズプラグインで動くの？つまり、プラグインをインストールしたらモデルが自動でダウンロードされて、プラグインが外部に連絡しないってこと？

これ（または似たような）モデルをVisual Studioで使う方法はある？Visual Studio Marketplaceの拡張機能は、最良でもクランキーで遅いし、そもそも動かないことも多いから。

Qwen 2.5 CoderをContinue.devでオートコンプリートに使った時のこと、めっちゃ大変だったな。JetBrainsのIDEでもVisual Studio Codeでも、ほんとに使いづらかった。こういうことを投稿してくれる人がいるのは嬉しいよ。じゃないと、誰も気にしてないみたいに感じちゃうからね。例えば、ClineやRooCode、KiloCodeでも、Ollamaで動くオートコンプリートモデルやリモートのCerebras Codeモデルを接続する良い方法がないんだ。KiloCodeはチャットや通常のエージェント用の設定オプションはあるのに、オートコンプリートに関しては特別扱いされてる理由がわからない。要するに、誰かが頑張ってくれてるのが嬉しいってこと。Copilotのサブスクリプションを維持しなくても済むし、オートコンプリートが好きだからね。他のチャットやエージェント的な機能にはClaude CodeやCodexの方がいいし、KiloCodeとかはIDEプラグインとしてはすごく良い。

こんな小さなモデルを動かすのに、どんなハードウェアが必要？Appleは使わないんだ。

└

1.54GBのモデル？これ、ラズベリーパイで動かせるよ。

└

1.5Bモデルは、確かCPU推論で1秒あたり約12トークンで動くはず。

Hacker Newsで議論の続きを見る

ハクソク