世界を動かす技術を、日本語で。

1ビット盆栽画像 4B 画像生成のためのローカルデバイス用

2026年6月1日原文(prismml.com)

概要

  • Bonsai Image 4B は高品質な画像生成をローカル端末で可能にするコンパクトなモデル
  • 1-bitTernary の2種類を用意し、用途や品質に応じて選択可能
  • メモリ使用量を大幅に削減し、iPhoneなど従来は困難だったデバイスでも動作
  • ベンチマークで高い品質と圧縮率を両立
  • オープンソース(Apache 2.0)で公開、Bonsai Studioアプリも同時リリース

Bonsai Image 4B概要

  • Bonsai Image 4B は、ローカルハードウェア(ノートPCやスマートフォン)上で高品質な画像生成を実現する 小型ディフュージョンモデル ファミリー
  • 1-bit Bonsai Image 4B は{-1, +1}のバイナリ重みとFP16スケーリングを採用し、最大限の圧縮・最小メモリ消費を実現
  • Ternary Bonsai Image 4B は{-1, 0, +1}の3値重みで、表現力と品質を強化しつつコンパクトさも維持
  • どちらも FLUX.2 Klein 4B をベースに重み表現を変更、アーキテクチャは維持
  • iPhoneで直接動作する初の4Bパラメータクラスモデル

メモリ削減とローカル動作

  • ディフュージョントランスフォーマー 部分の重みをバイナリ・3値化することで、メモリフットプリントを大幅削減
    • 1-bit:0.93GB(8.3倍圧縮)
    • Ternary:1.21GB(6.4倍圧縮)
    • 元モデルFLUX.2 Klein 4Bは7.75GB
  • テキストエンコーダやVAEも圧縮、Apple Silicon向け全体ペイロードは3.42GB/3.88GB
  • 512x512画像生成時のアクティブメモリ:1.5GB(1-bit)、1.96GB(Ternary)、元モデルは11.74GB
  • 1024x1024画像生成時:1.95GB/2.38GB、元モデルは14.39GB
  • iPhone 17 Pro MaxやMac M4 Proで 高速生成 (例:iPhoneで9.4秒、Macで6秒)
  • Apple Silicon(MLX)、CUDA(Gemlite)両対応

ベンチマークと品質比較

  • GenEval (構成力)、 HPSv3 (人間の好み・美的品質)、 DPG-Bench (プロンプト追従性)で評価
  • Ternary Bonsai Image 4B は95%の精度を維持しつつ6.4倍圧縮
  • 1-bit Bonsai Image 4B は88%の精度で8.3倍圧縮
  • 同クラス他モデル(SDXL, Stable Diffusion 1.5, PixArt-Σ XL等)と比較しても 高効率・高品質 を実現
  • 小型モデルよりも 大幅に優れたパフォーマンス

ローカル生成の意義

  • 画像生成は 品質 だけでなく デプロイ性 も重要
  • クラウドAPIは便利だが、通信・コスト・レイテンシなどの制約がある
  • ローカル推論により、反復的な生成・修正ループが 高速・低コスト・プライバシー重視 で実現
  • Bonsai Image 4Bは、ユーザー端末上での 直接・即時画像生成 を可能にする

ライセンス・入手方法・開発体制

  • 1-bit/Ternary Bonsai Image 4B 両モデルを Apache 2.0ライセンス でオープン公開
  • iOS向けアプリ Bonsai Studio も同時リリース
  • PrismMLはCaltech出身の研究者チームが中心、Khosla Ventures、Cerberus、Googleが支援
  • ニューラルネット圧縮と推論効率化の分野で長年研究・開発

リソース・リンク

  • Whitepaper
  • Hugging Face
  • WebGPUデモ
  • Bonsai Studio for iPhone
  • GitHub

採用情報

  • PrismMLは次世代AI開発に興味ある人材を募集中
  • 詳細は careersページ 参照

Hackerたちの意見

彼らはこれを拡散モデルって呼んでるけど、Flux.2に基づいた修正フローモデルなんだよね。

個人的には、「拡散」という言葉を全モデルファミリーを指すのに使うのは全然いいと思う。

最近、10ポイントもない投稿がHNのフロントページに載るのをよく見るんだけど、前からこんな感じだったっけ?

俺はただボットだと思ってる。

週末は競争が少ないの?

週末はそうだね。平日も、短い時間内に投稿されたら同じことが言えるよ。例えば、3分以内とか。ほとんど誰も「新着」を見ないんだ。それが本当の問題だよ。

HNのアルゴリズムの仕組みだと思う。新しい投稿やマイナーな投稿にチャンスを与えるために、フロントページに表示されるフィードに追加して、どれくらい反応があるかを見るんだ。そうしないと新しい投稿は見られなくて、回転が始まらないからね。だからみんながマイナーな投稿のベータテスターみたいな役割を果たしてるんだ。

「本当の」HNのフロントページ(つまり、最もアップボートされた投稿)を見たいなら、https://hckrnews.comを使うのをおすすめするよ。

アルゴリズムには「モメンタム」みたいなものがあって、アップボートの速度を考慮してるのかもね。

高いサブスクリプションの代わりに、AIをアップグレードするためにハードウェアをアップグレードする未来が待ちきれないよ。解決したい問題がたくさんあって、何十億ものトークンが必要なんだ。今のところ、企業のプロジェクトスポンサーシップなしでは完全にアクセスできないんだよね。opus4.6の品質で毎秒何万トークンも出せるASIC生成機があれば十分すぎる。

そういう問題の例を教えてもらえる?

ハードウェアと電力コストがサブスクリプションコストとどう比較されるのか気になるな。

Hacker Newsで議論の続きを見る