概要
ts_zip は、 大規模言語モデル を利用したテキストファイル専用の高圧縮率圧縮ツール。 GPU と 4GB RAM が必須で、速度は従来ツールより遅い。 英語中心 に学習されたモデルを採用し、他言語やソースコードにも対応。 実験的 な性質のため、バージョン間の互換性なし。 小規模メッセージ圧縮 にはts_smsも推奨。
ts_zipの特徴
- 大規模言語モデル(RWKV 169M v4) によるテキストファイル圧縮
- 従来ツール(xz等)より高い圧縮率 を実現
- 圧縮・展開速度:最大1MB/s(RTX 4090使用時)
- 対応ファイル:テキストファイルのみ
- バイナリファイル の圧縮効果は限定的
- 必要環境:GPU、4GB以上のRAM
- 英語データ中心の学習 だが、他言語・ソースコードにも対応
- 実験的ツール のため、バージョン間の後方互換性なし
- 小規模メッセージ用圧縮ツール:ts_sms も利用可能
圧縮率比較
-
圧縮率はbits per byte (bpb)で表示
-
代表的なファイルの比較例:
-
alice29.txt
- 元サイズ:152,089 bytes
- xz圧縮:48,492 bytes(2.551 bpb)
- ts_zip圧縮:21,713 bytes(1.142 bpb)
-
enwik8
- 元サイズ:100,000,000 bytes
- xz圧縮:24,865,244 bytes(1.989 bpb)
- ts_zip圧縮:13,825,741 bytes(1.106 bpb)
-
linux-1.2.13.tar
- 元サイズ:9,379,840 bytes
- xz圧縮:1,689,468 bytes(1.441 bpb)
- ts_zip圧縮:1,196,859 bytes(1.021 bpb)
-
他のプログラムとの比較結果 はLarge Text Compression Benchmark参照
-
ダウンロード
- Linux版 :ts_zip-2024-03-02.tar.gz
- Windows版 :ts_zip-2024-03-02-win64.zip
技術情報
- RWKV 169M v4モデル 採用
- 速度と圧縮率のバランス に優れる
- 8ビット量子化 + BF16浮動小数点 で評価
- トークン確率の予測 と 算術符号化 による圧縮
- 決定的かつ再現性のある評価方式
- GPU/CPUやスレッド数に依存しない結果
- 異なるハードウェアやソフトウェアでも展開可能
注意点・補足
- 実験段階 のため、将来のバージョンとの互換性保証なし
- Fabrice Bellard による開発
- 公式サイト :https://bellard.org/