概要
- Bonsai Image 4B は高品質な画像生成をローカル端末で可能にするコンパクトなモデル
- 1-bit と Ternary の2種類を用意し、用途や品質に応じて選択可能
- メモリ使用量を大幅に削減し、iPhoneなど従来は困難だったデバイスでも動作
- ベンチマークで高い品質と圧縮率を両立
- オープンソース(Apache 2.0)で公開、Bonsai Studioアプリも同時リリース
Bonsai Image 4B概要
- Bonsai Image 4B は、ローカルハードウェア(ノートPCやスマートフォン)上で高品質な画像生成を実現する 小型ディフュージョンモデル ファミリー
- 1-bit Bonsai Image 4B は{-1, +1}のバイナリ重みとFP16スケーリングを採用し、最大限の圧縮・最小メモリ消費を実現
- Ternary Bonsai Image 4B は{-1, 0, +1}の3値重みで、表現力と品質を強化しつつコンパクトさも維持
- どちらも FLUX.2 Klein 4B をベースに重み表現を変更、アーキテクチャは維持
- iPhoneで直接動作する初の4Bパラメータクラスモデル
メモリ削減とローカル動作
- ディフュージョントランスフォーマー 部分の重みをバイナリ・3値化することで、メモリフットプリントを大幅削減
- 1-bit:0.93GB(8.3倍圧縮)
- Ternary:1.21GB(6.4倍圧縮)
- 元モデルFLUX.2 Klein 4Bは7.75GB
- テキストエンコーダやVAEも圧縮、Apple Silicon向け全体ペイロードは3.42GB/3.88GB
- 512x512画像生成時のアクティブメモリ:1.5GB(1-bit)、1.96GB(Ternary)、元モデルは11.74GB
- 1024x1024画像生成時:1.95GB/2.38GB、元モデルは14.39GB
- iPhone 17 Pro MaxやMac M4 Proで 高速生成 (例:iPhoneで9.4秒、Macで6秒)
- Apple Silicon(MLX)、CUDA(Gemlite)両対応
ベンチマークと品質比較
- GenEval (構成力)、 HPSv3 (人間の好み・美的品質)、 DPG-Bench (プロンプト追従性)で評価
- Ternary Bonsai Image 4B は95%の精度を維持しつつ6.4倍圧縮
- 1-bit Bonsai Image 4B は88%の精度で8.3倍圧縮
- 同クラス他モデル(SDXL, Stable Diffusion 1.5, PixArt-Σ XL等)と比較しても 高効率・高品質 を実現
- 小型モデルよりも 大幅に優れたパフォーマンス
ローカル生成の意義
- 画像生成は 品質 だけでなく デプロイ性 も重要
- クラウドAPIは便利だが、通信・コスト・レイテンシなどの制約がある
- ローカル推論により、反復的な生成・修正ループが 高速・低コスト・プライバシー重視 で実現
- Bonsai Image 4Bは、ユーザー端末上での 直接・即時画像生成 を可能にする
ライセンス・入手方法・開発体制
- 1-bit/Ternary Bonsai Image 4B 両モデルを Apache 2.0ライセンス でオープン公開
- iOS向けアプリ Bonsai Studio も同時リリース
- PrismMLはCaltech出身の研究者チームが中心、Khosla Ventures、Cerberus、Googleが支援
- ニューラルネット圧縮と推論効率化の分野で長年研究・開発
リソース・リンク
- Whitepaper
- Hugging Face
- WebGPUデモ
- Bonsai Studio for iPhone
- GitHub
採用情報
- PrismMLは次世代AI開発に興味ある人材を募集中
- 詳細は careersページ 参照