概要
- MacBook Proで5分間で訓練可能な最強モデルは、約1.8MパラメータのGPTスタイルTransformer。
- TinyStoriesデータセット(約2,000万トークン)で訓練し、検証パープレキシティは約9.6。
- モデルサイズ・トークン数・訓練効率のバランスが重要。
- Transformer系が最も効果的で、DiffusionモデルやLSTMは非効率。
- 最適化やデータセット選定の工夫が短時間学習の鍵。
MacBook Proで5分間に訓練できる最強モデル
- 約 1.8Mパラメータ のGPT系Transformerモデルがベストパフォーマンス
- TinyStories (約2,000万トークン)の合成ストーリーコーパスを使用
- 検証用分割で パープレキシティ9.6 を達成
- 生成例は短時間学習としては十分に一貫性のあるストーリー生成
- 5分以内で学習できるモデルとしては高品質
5分間学習という制約の意義と課題
- MacBook Pro を持つユーザーはクラウドGPUも利用可能だが、あえてローカル短時間学習に挑戦
- BabyLMのような「データ量制限」ではなく「 学習時間制限」が主なチャレンジ
- 大規模モデルよりも「 小型かつ高速に学習可能なモデル」が有利
- 10kパラメータ以下では英語の文法学習も困難
- 適切なモデルサイズ選定が重要
学習効率化のための最適化
- Apple MPS 利用で約3,000トークン/秒の速度
- torch.compileやfloat16、勾配蓄積(gradient accumulation)は逆に低速化
- PyTorchからMLXへの切り替えでも劇的な改善なし
- MPS利用・モデルを極力小さく・勾配蓄積なし がベストプラクティス
データセット選定の工夫
- 1,000万トークン規模なら 一貫性のあるコーパス が必要
- Simple English Wikipediaは文法は学べるが固有名詞偏重で内容が一貫しない
- TinyStories は簡単な文法・原因と結果・固有名詞が少ないという利点
- 小型モデルでもストーリー生成が可能な最適データセット
トークナイゼーションについて
- トークナイザーの訓練時間は5分制限に含まず
- 数百MB以上のデータは5分で処理できないため、事前トークナイズも問題なし
- マルチバイトトークンの方が小型モデルに適合しやすい傾向
モデルアーキテクチャの比較
- GPT-2スタイルTransformer が最も効果的
- SwiGLU活性化関数や2~3層構成が最適
- 学習率0.001~0.002が短時間収束に適する
- カリキュラムラーニングは5分では効果薄
- 位置埋め込み(Positional Embedding) がRoPEより有効
- LSTMはTransformerよりパープレキシティが高く非効率
- Diffusionモデル(D3PM) は全く意味のある文を生成できず失敗
モデルサイズの最適解
- 2Mパラメータ前後 が5分学習の限界点
- それ以上は収束せず、それ以下は学習が頭打ち
- Chinchilla scaling law(トークン数÷202 ≒最適パラメータ数)とも一致
- 1Mパラメータモデルなら秒間10万トークン処理、理論最適サイズ1.5Mパラメータ
- 実験結果もこのスケーリング則に近い
総括と今後の展望
- 超短時間・小型モデル学習のノウハウ獲得
- Diffusionモデル等の新規アプローチは現状非実用的
- 5分間制約では本格的な精度向上は難しいが、 一貫性のあるストーリー生成 は可能
- ノートPCやスマートフォンでも今後さらに高性能なモデル学習が期待
- スケーリング則の有効性を再確認
参考
- Chinchilla scaling law: Section 3.4, Table 3
- TinyStories: 4歳児向けレベルの合成ストーリーコーパス