概要
- Shapelearn によるビット長学習で、Qwen3-30Bモデルの 速度と品質 を最適化
- メモリ制約 を満たした上で、 Tokens per Second (TPS) と出力品質のバランスを重視
- ByteShape モデルがUnslothやMagicQuantよりも高いTPS/品質トレードオフを実現
- CPU・GPU・Raspberry Pi など各プラットフォームでの実践的な比較結果
- GPUではビット数削減=高速化 とは限らず、カーネルやハードウェア特性が重要
ShapelearnによるQwen3-30B-A3B-Instruct-2507最適化の概要
- Shapelearn は、 ビット長学習手法 を用いてモデル重みのデータ型を選択
- 目標 は、特定デバイス上での 高TPSと高品質 の両立
- 実用的な制約 として、「モデルがメモリに収まること」を最優先
- モデルが収まった後は、 ファイルサイズの縮小のみを目的にしない
- 速度と品質のトレードオフ が改善される場合のみ、さらなる縮小を検討
llama.cppにおけるビット長最適化の重要性
- llama.cpp では「ビット数削減=速度向上」とは 限らない
- 異なる量子化形式で 異なるカーネルやオーバーヘッド が発生
- 一部GPUでは低ビット化で逆に 速度低下 する場合あり
- メモリは「予算」 として扱い、 TPSと品質の最適化 を最重視
Raspberry Pi 5(16GB)での実践例
- Qwen3-30B が Raspberry Pi 5(16GB) で動作可能
- Q3_K_S-2.70bpw [KQ-2] は 2.70 BPW/8.03 TPS/94.18% BF16品質
- リアルタイム感 を実現(8 TPS超で体感上十分な応答速度)
- ByteShape はUnslothやMagicQuantより 効率的なTPS/品質トレードオフ
- メモリ制約下 (「RAMに収まること」が最優先)でのモデル選択指針
-
レスポンスタイム重視 :Q3_K_S-2.70bpw [KQ-2]推奨
-
最高精度重視 :ByteShapeが最小エラー率で最高精度を実現
-
代表的なモデル比較表
- Q4_K_S-3.92bpw [KQ-7]:1.14%誤差/3.92 BPW/5.30 TPS
- Q4_K_S-3.61bpw [KQ-6]:1.25%誤差/3.61 BPW/5.94 TPS
- Q3_K_S-3.25bpw [KQ-5]:2.03%誤差/3.25 BPW/6.68 TPS
- Unsloth UD-IQ3_XXS [6]:2.22%誤差/3.38 BPW/5.03 TPS
-
Intel i7(64GB)での比較
- 全モデルがRAMに収まる環境 でのTPS/精度比較
- ByteShape はUnsloth・MagicQuantより 少ないビット数で高品質/高TPS
- 26+ TPS領域 で動作するのはByteShapeのみ
- 品質最優先 :IQ4_XS-4.67bpw [KQ-9]が最小誤差(0.25%)を達成
- バランス重視 :Q3_K_S-3.25bpw [KQ-5]が高精度・高TPS・低BPWの最良バランス
GPU(RTX5090/32GB・RTX4080/16GB)での最適化
- GPUではカーネル選択が性能に大きく影響
- ビット数削減が必ずしも速度向上にならない
- 4ビット付近に TPSと品質のスイートスポット が存在
- RTX5090(32GB) :UnslothとMagicQuantの~4bモデルが高TPS・高品質で拮抗
- ByteShapeは高精度領域で最良(IQ4_XS-4.67bpw [IQ-8]:4.67 BPW/272.98 TPS/99.75%精度)
- RTX4080(16GB) :VRAM制約下で ByteShapeがUnslothより高効率
- IQ4_XS-3.87bpw [IQ-6]:3.87 BPW/214.81 TPS/98.66%精度
- Unsloth Q3_K_XL [8]より1.59倍低誤差・9.4%高TPS
GPUで「3ビット=高速化」とは限らない理由
- データサイズ削減=速度向上 とは限らない
- GPUは32スレッド単位の「ワープ」で処理
- 特定データ形式・メモリアクセスパターン で最適化されている
- 「黄金パス」から外れると 遅延やオーバーヘッド が発生
- 32バイト単位でのVRAMアクセス など、ハードウェア固有の制約
- 柔軟性向上=ハードウェア複雑化=遅延・消費電力増加 のトレードオフ
まとめ
- Shapelearn/ByteShape は、 実デバイスでの速度・品質最適化 に最適な手法
- メモリ制約を満たしつつ、速度と品質のバランス を重視したモデル選択が可能
- CPU・GPU・エッジデバイス すべてで、 ByteShapeが最良のTPS/品質トレードオフ を実現
- 量子化は単なるビット数削減ではなく、ハードウェア特性・カーネル最適化が鍵
- 現実的なデバイス制約下での最適なAIモデル運用 のための新しいベストプラクティス