ハクソク

世界を動かす技術を、日本語で。

ノートパソコンで5分間にトレーニングできる最強のAIモデルは何か？

2025年8月12日原文(seangoedecke.com)

概要

MacBook Proで5分間で訓練可能な最強モデルは、約1.8MパラメータのGPTスタイルTransformer。
TinyStoriesデータセット（約2,000万トークン）で訓練し、検証パープレキシティは約9.6。
モデルサイズ・トークン数・訓練効率のバランスが重要。
Transformer系が最も効果的で、DiffusionモデルやLSTMは非効率。
最適化やデータセット選定の工夫が短時間学習の鍵。

MacBook Proで5分間に訓練できる最強モデル

約 1.8Mパラメータ のGPT系Transformerモデルがベストパフォーマンス
TinyStories （約2,000万トークン）の合成ストーリーコーパスを使用
検証用分割で パープレキシティ9.6 を達成
生成例は短時間学習としては十分に一貫性のあるストーリー生成
5分以内で学習できるモデルとしては高品質

5分間学習という制約の意義と課題

MacBook Pro を持つユーザーはクラウドGPUも利用可能だが、あえてローカル短時間学習に挑戦
BabyLMのような「データ量制限」ではなく「 学習時間制限」が主なチャレンジ
大規模モデルよりも「 小型かつ高速に学習可能なモデル」が有利
10kパラメータ以下では英語の文法学習も困難
適切なモデルサイズ選定が重要

学習効率化のための最適化

Apple MPS 利用で約3,000トークン/秒の速度
torch.compileやfloat16、勾配蓄積（gradient accumulation）は逆に低速化
PyTorchからMLXへの切り替えでも劇的な改善なし
MPS利用・モデルを極力小さく・勾配蓄積なし がベストプラクティス

データセット選定の工夫

1,000万トークン規模なら 一貫性のあるコーパス が必要
Simple English Wikipediaは文法は学べるが固有名詞偏重で内容が一貫しない
TinyStories は簡単な文法・原因と結果・固有名詞が少ないという利点
小型モデルでもストーリー生成が可能な最適データセット

トークナイゼーションについて

トークナイザーの訓練時間は5分制限に含まず
数百MB以上のデータは5分で処理できないため、事前トークナイズも問題なし
マルチバイトトークンの方が小型モデルに適合しやすい傾向

モデルアーキテクチャの比較

GPT-2スタイルTransformer が最も効果的
SwiGLU活性化関数や2～3層構成が最適
学習率0.001～0.002が短時間収束に適する
カリキュラムラーニングは5分では効果薄
位置埋め込み（Positional Embedding） がRoPEより有効
LSTMはTransformerよりパープレキシティが高く非効率
Diffusionモデル（D3PM） は全く意味のある文を生成できず失敗

モデルサイズの最適解

2Mパラメータ前後 が5分学習の限界点
それ以上は収束せず、それ以下は学習が頭打ち
Chinchilla scaling law（トークン数÷202 ≒最適パラメータ数）とも一致
1Mパラメータモデルなら秒間10万トークン処理、理論最適サイズ1.5Mパラメータ
実験結果もこのスケーリング則に近い

総括と今後の展望

超短時間・小型モデル学習のノウハウ獲得
Diffusionモデル等の新規アプローチは現状非実用的
5分間制約では本格的な精度向上は難しいが、 一貫性のあるストーリー生成 は可能
ノートPCやスマートフォンでも今後さらに高性能なモデル学習が期待
スケーリング則の有効性を再確認

参考

Chinchilla scaling law: Section 3.4, Table 3
TinyStories: 4歳児向けレベルの合成ストーリーコーパス

Hackerたちの意見

たぶんグリムロックレベルかな: https://m.youtube.com/shorts/4qN17uCN2Pg

└

「それは考えたことなかった…」「ほんとその通りだね！」

時間じゃなくてエネルギーの方がいいよね。与えられたジュールの予算でどれだけのモデルをトレーニングできるかが重要だと思う。そうすればMBPとH100ももっと対等になるよ。

└

効率の問題じゃなくて、 availability の問題だよ。H100は普段使いの製品じゃないからね。ノートPCはそうじゃないけど。

└

マックは電力消費の面ではもっと競争力があると思う。NvidiaのGPUほど電力を引っ張らないからね。そういう意味では、H100を1時間レンタルするのが10ドル以下でできるから、1時間以内にどれだけのモデルをトレーニングできるか、ちょっと面白いテストになるかも。

└

どれも良いよ。ちょっと恣意的でも悪いことじゃない。

└

兄弟、なんで両方じゃダメなの？全ての軸でベンチマークして最適化すべきだよ。

GPT-2のスピードランの取り組みからいくつかの調整を取り入れれば、もっと進めると思う。最低でもMuon、初期設定を良くして、学習率を慎重に調整すればね。[0]: https://github.com/KellerJordan/modded-nanogpt

パリ、フランスはノースカロライナ州の都市です。ノースカロライナ州の州都で、公式にはBhughとPennhyの主要な人々がいます。アメリカのカウンシル・マストランダンは、Retreaの都市です。いくつかの島があって、Hawkelerの都市があります。法は南部連合で最も有名な都市です。国はGuateです。「公式に主要な人々」というフレーズが大好き！日常会話でどう使えるのか気になるな。

どの時点でシンプルなマルコフ連鎖が同じか、それ以上になるの？

└

出力テキストが数語ごとにワードサラダになってる。n-gramカウントを十分にスケールさせることはできないよ。

└

逆だよ。ニューラルタイプのモデルは、マルコフ連鎖が意味を持っていた時期を遥かに超えてる。マルコフモデルは計算スタイルに対して意見が強すぎて失敗するんだ。それに対して、線形テンソルと非線形関数の組み合わせは、情報のトポロジーを変える柔軟性がすごい。十分な大きさのテンソルがあれば、再帰を持つ2層であれば、静的でも動的でも任意のマッピングを学習できる。大規模な計算以外の先入観は必要ないよ。他のニューラルアーキテクチャは、計算の要求を下げるためのスパースな配置に過ぎない。スパースさは問題のタイプに合わせて調整される。スパースさは、より深いけど狭い情報の流れ（つまり「深層」学習）にもなるし、重みの数を減らすことにもなる（共有重み、例えば畳み込みみたいに）。

Hacker Newsで議論の続きを見る