概要
MIT Technology Reviewの記事を受け、ローカルLLMのサイズとオフラインWikipediaのダウンロードサイズを比較。 OllamaライブラリのモデルとKiwixのWikipediaバンドルを対象。 消費者向けハードウェアで動作可能なモデルと画像なしWikipediaを選定。 ファイルサイズでの比較だが、用途や性能には違いあり。 面白い発見として、LLMとWikipediaのサイズが重なるポイントも存在。
LLMとオフラインWikipediaのサイズ比較
- MIT Technology Review の記事で、オフラインLLMが終末シナリオで役立つという逸話
- Simon Willison のコメント:「小型USBでWikipediaの凝縮・不完全版を持ち歩ける」
- ローカルLLMとオフラインWikipediaの サイズ比較 への関心
- Ollamaライブラリ のモデルと Kiwix のWikipediaダウンロードを選定
- 画像なしWikipediaバンドル、消費者向けハードウェア対応モデルで比較
サイズ順リスト(抜粋)
- Best of Wikipedia(5万記事、詳細なし): 356.9MB
- Simple English Wikipedia(詳細なし): 417.5MB
- Qwen 3 0.6B: 523MB
- Simple English Wikipedia: 915.1MB
- Deepseek-R1 1.5B: 1.1GB
- Llama 3.2 1B: 1.3GB
- Qwen 3 1.7B: 1.4GB
- Best of Wikipedia(5万記事): 1.93GB
- Llama 3.2 3B: 2.0GB
- Qwen 3 4B: 2.6GB
- Deepseek-R1 8B: 5.2GB
- Qwen 3 8B: 5.2GB
- Gemma3n e2B: 5.6GB
- Gemma3n e4B: 7.5GB
- Deepseek-R1 14B: 9GB
- Qwen 3 14B: 9.3GB
- Wikipedia(詳細なし): 13.82GB
- Mistral Small 3.2 24B: 15GB
- Qwen 3 30B: 19GB
- Deepseek-R1 32B: 20GB
- Qwen 3 32B: 20GB
- Wikipedia: top 1 million articles: 48.64GB
- Wikipedia: 57.18GB
比較時の注意点と発見
- LLMと百科事典 は本質的に異なる技術、 用途・強み・弱み が異なる
- ファイルサイズ だけでなく、LLMは メモリやCPU も多く消費
- オフラインWikipediaは 低スペックPC でも安定動作
- 目的に応じた選択 が重要
- Wikipediaの特定分野記事セットや、ハードウェア最適化LLMの選択肢
- KiwixではStack Overflow等、他リソースもダウンロード可能
- 比較基準は主観的、厳密な調査ではない
面白いポイント
- Wikipediaの「 Best 50,000 Articles」は Llama 3.2 3B と大体同じサイズ
- Wikipedia全体は 最小LLMより小さく、最大LLMより大きい 場合も
- オフライン環境での 柔軟な選択肢 として両方ダウンロードも一案