世界を動かす技術を、日本語で。

1ビット盆栽画像 4B 画像生成のためのローカルデバイス用

概要

  • Bonsai Image 4B は高品質な画像生成をローカル端末で可能にするコンパクトなモデル
  • 1-bitTernary の2種類を用意し、用途や品質に応じて選択可能
  • メモリ使用量を大幅に削減し、iPhoneなど従来は困難だったデバイスでも動作
  • ベンチマークで高い品質と圧縮率を両立
  • オープンソース(Apache 2.0)で公開、Bonsai Studioアプリも同時リリース

Bonsai Image 4B概要

  • Bonsai Image 4B は、ローカルハードウェア(ノートPCやスマートフォン)上で高品質な画像生成を実現する 小型ディフュージョンモデル ファミリー
  • 1-bit Bonsai Image 4B は{-1, +1}のバイナリ重みとFP16スケーリングを採用し、最大限の圧縮・最小メモリ消費を実現
  • Ternary Bonsai Image 4B は{-1, 0, +1}の3値重みで、表現力と品質を強化しつつコンパクトさも維持
  • どちらも FLUX.2 Klein 4B をベースに重み表現を変更、アーキテクチャは維持
  • iPhoneで直接動作する初の4Bパラメータクラスモデル

メモリ削減とローカル動作

  • ディフュージョントランスフォーマー 部分の重みをバイナリ・3値化することで、メモリフットプリントを大幅削減
    • 1-bit:0.93GB(8.3倍圧縮)
    • Ternary:1.21GB(6.4倍圧縮)
    • 元モデルFLUX.2 Klein 4Bは7.75GB
  • テキストエンコーダやVAEも圧縮、Apple Silicon向け全体ペイロードは3.42GB/3.88GB
  • 512x512画像生成時のアクティブメモリ:1.5GB(1-bit)、1.96GB(Ternary)、元モデルは11.74GB
  • 1024x1024画像生成時:1.95GB/2.38GB、元モデルは14.39GB
  • iPhone 17 Pro MaxやMac M4 Proで 高速生成 (例:iPhoneで9.4秒、Macで6秒)
  • Apple Silicon(MLX)、CUDA(Gemlite)両対応

ベンチマークと品質比較

  • GenEval (構成力)、 HPSv3 (人間の好み・美的品質)、 DPG-Bench (プロンプト追従性)で評価
  • Ternary Bonsai Image 4B は95%の精度を維持しつつ6.4倍圧縮
  • 1-bit Bonsai Image 4B は88%の精度で8.3倍圧縮
  • 同クラス他モデル(SDXL, Stable Diffusion 1.5, PixArt-Σ XL等)と比較しても 高効率・高品質 を実現
  • 小型モデルよりも 大幅に優れたパフォーマンス

ローカル生成の意義

  • 画像生成は 品質 だけでなく デプロイ性 も重要
  • クラウドAPIは便利だが、通信・コスト・レイテンシなどの制約がある
  • ローカル推論により、反復的な生成・修正ループが 高速・低コスト・プライバシー重視 で実現
  • Bonsai Image 4Bは、ユーザー端末上での 直接・即時画像生成 を可能にする

ライセンス・入手方法・開発体制

  • 1-bit/Ternary Bonsai Image 4B 両モデルを Apache 2.0ライセンス でオープン公開
  • iOS向けアプリ Bonsai Studio も同時リリース
  • PrismMLはCaltech出身の研究者チームが中心、Khosla Ventures、Cerberus、Googleが支援
  • ニューラルネット圧縮と推論効率化の分野で長年研究・開発

リソース・リンク

  • Whitepaper
  • Hugging Face
  • WebGPUデモ
  • Bonsai Studio for iPhone
  • GitHub

採用情報

  • PrismMLは次世代AI開発に興味ある人材を募集中
  • 詳細は careersページ 参照

Hackerたちの意見

彼らはこれを拡散モデルって呼んでるけど、Flux.2に基づいた修正フローモデルなんだよね。

個人的には、「拡散」という言葉を全モデルファミリーを指すのに使うのは全然いいと思う。

最近、10ポイントもない投稿がHNのフロントページに載るのをよく見るんだけど、前からこんな感じだったっけ?

俺はただボットだと思ってる。

週末は競争が少ないの?

週末はそうだね。平日も、短い時間内に投稿されたら同じことが言えるよ。例えば、3分以内とか。ほとんど誰も「新着」を見ないんだ。それが本当の問題だよ。

HNのアルゴリズムの仕組みだと思う。新しい投稿やマイナーな投稿にチャンスを与えるために、フロントページに表示されるフィードに追加して、どれくらい反応があるかを見るんだ。そうしないと新しい投稿は見られなくて、回転が始まらないからね。だからみんながマイナーな投稿のベータテスターみたいな役割を果たしてるんだ。

「本当の」HNのフロントページ(つまり、最もアップボートされた投稿)を見たいなら、https://hckrnews.comを使うのをおすすめするよ。

アルゴリズムには「モメンタム」みたいなものがあって、アップボートの速度を考慮してるのかもね。

高いサブスクリプションの代わりに、AIをアップグレードするためにハードウェアをアップグレードする未来が待ちきれないよ。解決したい問題がたくさんあって、何十億ものトークンが必要なんだ。今のところ、企業のプロジェクトスポンサーシップなしでは完全にアクセスできないんだよね。opus4.6の品質で毎秒何万トークンも出せるASIC生成機があれば十分すぎる。

そういう問題の例を教えてもらえる?

ハードウェアと電力コストがサブスクリプションコストとどう比較されるのか気になるな。

Taalasって会社がそんなことに取り組んでるよ。Opus4.6のクオリティではないけど、もっと大きなモデルを目指してるはず。今はLLama 8Bモデルを使ってて、約17kトークン/秒で動くみたい。テストはここでできるよ:https://chatjimmy.ai/

まあ、これが現実なんだけど、論理的に考えると、5人がリソースを集める方が1人よりも強いんだよね。だから、データセンターは常に勝つ。だって、利用時間が長いからさ。もう忘れちゃいなよ。いつも同じことを考えるけど、論理がそれは幻想だって教えてくれる。平均的には、ハードウェアをうまく使ってるグループには勝てないよ。でも、最新のハードウェアは手に入るだろうね。最先端は常にクラウドだし。

これに必要な最小限のハードウェア要件って誰でも手に入れられるの?RAMとストレージの両方とか?

ホワイトペーパーには「1ビットボンサイ画像4Bでの平均アクティブメモリ圧力は1.95GB、3値ボンサイ画像4Bで2.38GB」と書いてあるよ。ストレージはリンク先にあって、その半分くらいだね。

三元mlxのサイズは3.8GBだよ。512x512のピークメモリ使用量は約3.7GB。

ローカルな画像生成モデルのベンチマークってあるの?ローカル=16GBのMacBookか8GB以上のNVIDIAカードで動くやつ。

デモアプリがiOS専用で、ウェブ版はブラウザがクラッシュしちゃうから試せなかった。小さいモデルはすごいけど、1.8GBのテキストエンコーダーモデルを最初に読み込むと、あまりお得感がないんだよね。既存の画像生成モデルと比べるとどうなんだろう。しばらくhttps://github.com/alichherawalla/off-grid-mobile-aiを試してみたけど、画像生成モデルはちょっと物足りないな。

私たちの知る限り、ボンサイ画像4Bはそのパラメータクラスで直接iPhone上で動く初めての画像モデルだよ。SD XLは3.5Bじゃなかったっけ?リファイナーモデルはさらに大きいし、それらはiPhone 13 Proで動くんだよね。

本当に疑問なんだけど、これって実際の問題を解決してるの?私の経験では、拡散モデルを使うときのボトルネックはストレージやメモリじゃなくて、生成時間なんだよね。多くのモデルは8〜12GBの1080世代GPUや、同じくらいのメモリを持つMacで動くし、GPUのパワー的にはそれが下限だと思う。あと、これらのモデルは基にしている小さいFLUX.2モデルよりもわずかに遅いことも気になる。まあ、これでiPhoneみたいな、そこそこパワフルだけどメモリが限られたデバイスでローカルモデルを動かせるようになるかもしれないけど、それって本当に一般的なニーズなのかな?

これは進展としては有用だね。そこそこ良い精度のローカルスケール推論ができるってことは、コストを気にせずに使い捨ての画像を頻繁に生成できる製品を作れるってことだから。今まで見た画像生成の製品はすべて課金制だったから、価値がかなり制限されてた。これが本当に「そこそこ良い精度」のポイントに達してるかはわからないけど。

無料ユーザーにとっては、ローカル生成の方が待ち時間よりも早いだろうね。

本当に疑問なんだけど、ざっくりした説明だけで思いつくどんな画像でも生成できる1GBのファイル/プログラムが存在するって、すごくない?

理想的には、三元モデルがうまくいけば、計算はすごく簡単になるよね(足し算/引き算 vs 16ビットの掛け算)。

そう、これは大きな問題だよ。これらは計算よりもメモリ帯域幅に制約され始めてるから。一方で、1ビットのワイヤがずっと早くストリーミングできるから、結果がかなり良くなると思う。少なくとも、そう予想してる!

それって、iPhoneのメモジ生成がどんな実際の問題を解決したのかって聞いてるようなもんだよね。特定の問題を直接解決する必要はなくて、消費者にとって全体的に良いものであればいいんだ。サブスクリプション型のソリューションにプレッシャーをかけるし…少なくともプライベートだし、全部のデータを提供する必要もないからね。

現在の価値は、実用的というよりは学術的なものだと思う。最前線の技術はまだまだ「十分良い」とは言えない(画像生成に関しては、最高のモデルでもほとんどがクソだし)。だから、能力の面で最前線から遅れているもの(1ビットモデルなんて必然的にそうなる)なんて使い物にならない。でも、計算単位あたりの能力密度が驚くほど高くなるのは大きなことだよ。これによって、最前線がより良く、安く運用できるようになって、リソースの消費も減る。個人のノートパソコンやスマホでできることが、もっと幅広いタスクに広がるってことだし。プライバシーの観点からも、デバイス上で動くべきことがたくさんあるし、大きな専用GPUを持ってる人なんてそう多くないからね。

今はGPUの需要が極端に高くて、供給が限られてる時代だよね。エッジにプッシュするたびに、クラウドリソースが他のタスクのために解放される。効率が上がると、既存のリソースで達成できることが増えるんだ。もし画像が半分の計算量でレンダリングできるなら、必要なGPUも半分で済むってことだよ。

「1ビット」って見たとき、最初に思い浮かんだのは1ビットのドットパターンの白黒画像生成だったんだよね。モデルの重みのことじゃなくて…それで、もし訓練された画像や作業空間が1ビット(フロイド・スタインバーグやアトキンソン、好きなアルゴリズムを使って)ドットパターンの画像に制限されてたら、どれだけクールで速くて圧縮された拡散画像生成器になるのか気になってきた。訓練はかなり早く終わるだろうし、現代のGPUに収まると思うよ。

まさに私も同じことを考えたし、ここには本当に面白いアイデアが探求できると思う。

やっぱり、グレースケールでトレーニングしてから、後でドットを入れる方がいいと思うよ。

1日以内に、Apple Watchでエロコンテンツ生成を可能にするこの1ビットモデル用のLoRAが誰かに訓練されるだろうね。