Show HN: 1ビット盆栽、初の商業的に実用可能な1ビットLLM

2026年4月1日原文(prismml.com)

概要

1-bit Bonsaiシリーズ は超省メモリ設計のAIモデル。
1-bit重み 採用で、従来のフル精度モデルと同等の精度を維持。
8B/4B/1.7B の3種類を展開し、用途に応じて選択可能。
ロボティクスやエッジコンピューティング など、リアルタイム処理に最適。
高い知能密度・高速処理・省エネルギー性能 を実現。

1-bit Bonsai 8Bの特徴

1-bit重み を採用した初の商用モデル
メモリ使用量1.15GB という超省サイズ
ロボティクス、リアルタイムエージェント、エッジコンピューティング 向け設計
フル精度8Bモデル比で14倍小型化
8倍高速化
5倍のエネルギー効率
ベンチマークで主要8Bモデルと同等の精度
知能密度10倍超 の実現

1-bit Bonsai 4Bの特徴

メモリ使用量0.57GB の軽量モデル
M4 Pro で 毎秒132トークン の高速生成
高精度と省エネルギー性能の両立
パフォーマンスとスピードが求められるワークロード に最適

1-bit Bonsai 1.7Bの特徴

メモリ使用量0.24GB という極小フットプリント
iPhone 17 Pro Max 上で 毎秒130トークン の高速処理
業界最高水準の省エネルギー性能 と安定した精度
軽量ながら高度なタスクにも対応可能 な設計

Hackerたちの意見

大きな機械学習モデルのトレンドは、浮動小数点ではなくビットに向かうと思う。浮動小数点には効率が悪い部分が多いんだよね。通常、浮動小数点は正規分布みたいなものだから、大半の値が狭い範囲に集まってると、重みのストレージや計算が非効率的になる。ニューラルネットワークの基盤は実数値関数に根ざしてるけど、浮動小数点の演算は実際にはビット単位の演算なんだ。問題は、GPUが浮動小数点で動作することと、標準的な機械学習理論が実数に基づいていることだね。

└

そして標準的な機械学習理論は実数に基づいている。この論文は、トレーニングにもバイナリ数だけを使っていて、しっかりした理論的基盤があるよ： https://proceedings.neurips.cc/paper_files/paper/2024/file/7... TL;DR: 彼らは「ブール変動」という概念を発明していて、これはニュートン/ライプニッツの導関数のバイナリアナログなんだ。これによって、バイナリで直接バックプロパゲーションができるようになったんだ。

そのトレードオフは何なの？もし小さくて速くて効率的なら、パフォーマンスは悪くなるの？素人なんだけど、ちょっと気になってる。

└

彼ら自身の（おそらく選りすぐりの）ベンチマークでは、モデルが「市場の中間」に位置してるみたい（llama3 3b、qwen3 1.7b）。claudeやchatgtp、geminiとは競争してないね。これらのモデルは直接触りたいものではないけど、分類や簡単な要約、翻訳タスクにはすごく役立つ。サイズに対してかなり印象的なモデルだよね。古いラズベリーパイでも扱えるくらいだし。この手のモデルにはまだまだ使い道があるよ。

└

彼らのホワイトペーパーを見てみると（https://github.com/PrismML-Eng/Bonsai-demo/blob/main/1-bit-b...）、モデルの知能が低下しているためにいくつかのトレードオフがあることに気づくよ（10ページ）。このモデルのMMLU Redux、MuSR、GSM8K、Human Eval+、IFEval、BFCLv3の平均は70.5で、Qwen3の79.3に対して低いけど、サイズは16倍小さく、4090では6倍速いから、かなり尊敬できるトレードオフだと思う。個人的にはここでファインチューニングのコードに興味があるな。

128ビットごとにFP16スケールファクターの1ビット。こんなにうまくいくのが不思議だね。いくつか試してみたけど、Cursorを動かすことができたのはすごかった。ツールの使用もこなしてたし。Cursorを使っていくつかのウェブページテストを生成させた。πのモンテカルロシミュレーションでは、論理は正しかったけど、テストを開始するインターフェースを作れなかった。変更をリクエストするのはほぼ成功したけど、いくつかの記号が残ってて、それが原因で失敗した。少し手動で編集が必要だった。Simon Wilsonのペリカンも試したけど、すごく抽象的で、鳥や自転車とは全然認識できなかった。結果の写真はこちら: https://x.com/pwnies/status/2039122871604441213 彼らのウェブページにはデモリンクがないみたいだから、もし試したい人がいたら、私のローカルデスクトップで動いてるllama.cppをどうぞ。この投稿の後、数時間は動かしておくよ: https://unfarmable-overaffirmatively-euclid.ngrok-free.dev

└

こちらがGoogle Colabのリンクだよ: https://colab.research.google.com/drive/1EzyAaQ2nwDv_1X0jaC5... ngrokは多くの人が来たせいでDDoS攻撃を受けたみたい。

└

スピードがすごいね。投機的デコーディングに似た設定ができればいいのに。

└

あなたのインスタンスへのリンクをシェアしてくれてありがとう。反応がめちゃくちゃ早かった。いくつか試してみた結果は以下の通り: 1. 都市名と国名を入力して、緯度/経度を見つけてggmapsでマッピングするRスクリプトを生成した。かなり decent なスクリプトが生成されたよ（もっと最適化できるかもしれないけど、モデルのサイズにしては印象的）。geojsonを使うといいという警告もあった。2. ガウス積分方程式を表示するためのlatexスクリプトを生成した - 一般的なバージョンではなく、確率分布関数を使った（と思う）非標準バージョンを生成したけど、それでもポイントをあげたい。式やパラメータの説明、BASHを使ってスクリプトをコンパイルする方法も教えてくれた。3. オイラーの恒等式を表示するためのlatexスクリプトを生成した - これは完璧にこなした。1ビットモデルでこんなに小さくて反応が早いのに、知識の密度がすごいってことに強く同意するよ。

└

わー、思ったよりクールだった！軽めのセマンティックワークフローにこれを組み込むのが楽しみだな。

└

なんか初期のChatGPTを思い出すな。ほとんど正しい答えだけど、たまに意味不明なことも言う。速度を考えると、答えをダブルチェックする「思考」フェーズを設けたり、検索を使ったりすると、もっと役立つかもしれないね。

└

ありがとう。これを動かすのにPrismのllama.cppフォークを使う必要があった？

Hacker Newsで議論の続きを見る

ハクソク

Show HN: 1ビット盆栽、初の商業的に実用可能な1ビットLLM

概要

1-bit Bonsai 8Bの特徴

1-bit Bonsai 4Bの特徴

1-bit Bonsai 1.7Bの特徴

Hackerたちの意見