世界を動かす技術を、日本語で。

ノートパソコンで5分間にトレーニングできる最強のAIモデルは何か?

概要

  • MacBook Proで5分間で訓練可能な最強モデルは、約1.8MパラメータのGPTスタイルTransformer。
  • TinyStoriesデータセット(約2,000万トークン)で訓練し、検証パープレキシティは約9.6。
  • モデルサイズ・トークン数・訓練効率のバランスが重要。
  • Transformer系が最も効果的で、DiffusionモデルやLSTMは非効率。
  • 最適化やデータセット選定の工夫が短時間学習の鍵。

MacBook Proで5分間に訓練できる最強モデル

  • 1.8Mパラメータ のGPT系Transformerモデルがベストパフォーマンス
  • TinyStories (約2,000万トークン)の合成ストーリーコーパスを使用
  • 検証用分割で パープレキシティ9.6 を達成
  • 生成例は短時間学習としては十分に一貫性のあるストーリー生成
  • 5分以内で学習できるモデルとしては高品質

5分間学習という制約の意義と課題

  • MacBook Pro を持つユーザーはクラウドGPUも利用可能だが、あえてローカル短時間学習に挑戦
  • BabyLMのような「データ量制限」ではなく「 学習時間制限」が主なチャレンジ
  • 大規模モデルよりも「 小型かつ高速に学習可能なモデル」が有利
  • 10kパラメータ以下では英語の文法学習も困難
  • 適切なモデルサイズ選定が重要

学習効率化のための最適化

  • Apple MPS 利用で約3,000トークン/秒の速度
  • torch.compileやfloat16、勾配蓄積(gradient accumulation)は逆に低速化
  • PyTorchからMLXへの切り替えでも劇的な改善なし
  • MPS利用・モデルを極力小さく・勾配蓄積なし がベストプラクティス

データセット選定の工夫

  • 1,000万トークン規模なら 一貫性のあるコーパス が必要
  • Simple English Wikipediaは文法は学べるが固有名詞偏重で内容が一貫しない
  • TinyStories は簡単な文法・原因と結果・固有名詞が少ないという利点
  • 小型モデルでもストーリー生成が可能な最適データセット

トークナイゼーションについて

  • トークナイザーの訓練時間は5分制限に含まず
  • 数百MB以上のデータは5分で処理できないため、事前トークナイズも問題なし
  • マルチバイトトークンの方が小型モデルに適合しやすい傾向

モデルアーキテクチャの比較

  • GPT-2スタイルTransformer が最も効果的
  • SwiGLU活性化関数や2~3層構成が最適
  • 学習率0.001~0.002が短時間収束に適する
  • カリキュラムラーニングは5分では効果薄
  • 位置埋め込み(Positional Embedding) がRoPEより有効
  • LSTMはTransformerよりパープレキシティが高く非効率
  • Diffusionモデル(D3PM) は全く意味のある文を生成できず失敗

モデルサイズの最適解

  • 2Mパラメータ前後 が5分学習の限界点
  • それ以上は収束せず、それ以下は学習が頭打ち
  • Chinchilla scaling law(トークン数÷202 ≒最適パラメータ数)とも一致
  • 1Mパラメータモデルなら秒間10万トークン処理、理論最適サイズ1.5Mパラメータ
  • 実験結果もこのスケーリング則に近い

総括と今後の展望

  • 超短時間・小型モデル学習のノウハウ獲得
  • Diffusionモデル等の新規アプローチは現状非実用的
  • 5分間制約では本格的な精度向上は難しいが、 一貫性のあるストーリー生成 は可能
  • ノートPCやスマートフォンでも今後さらに高性能なモデル学習が期待
  • スケーリング則の有効性を再確認

参考

  • Chinchilla scaling law: Section 3.4, Table 3
  • TinyStories: 4歳児向けレベルの合成ストーリーコーパス

Hackerたちの意見

たぶんグリムロックレベルかな: https://m.youtube.com/shorts/4qN17uCN2Pg

「それは考えたことなかった…」 「ほんとその通りだね!」

時間じゃなくてエネルギーの方がいいよね。与えられたジュールの予算でどれだけのモデルをトレーニングできるかが重要だと思う。そうすればMBPとH100ももっと対等になるよ。

効率の問題じゃなくて、 availability の問題だよ。H100は普段使いの製品じゃないからね。ノートPCはそうじゃないけど。

マックは電力消費の面ではもっと競争力があると思う。NvidiaのGPUほど電力を引っ張らないからね。そういう意味では、H100を1時間レンタルするのが10ドル以下でできるから、1時間以内にどれだけのモデルをトレーニングできるか、ちょっと面白いテストになるかも。

どれも良いよ。ちょっと恣意的でも悪いことじゃない。

兄弟、なんで両方じゃダメなの?全ての軸でベンチマークして最適化すべきだよ。

GPT-2のスピードランの取り組みからいくつかの調整を取り入れれば、もっと進めると思う。最低でもMuon、初期設定を良くして、学習率を慎重に調整すればね。[0]: https://github.com/KellerJordan/modded-nanogpt

パリ、フランスはノースカロライナ州の都市です。ノースカロライナ州の州都で、公式にはBhughとPennhyの主要な人々がいます。アメリカのカウンシル・マストランダンは、Retreaの都市です。いくつかの島があって、Hawkelerの都市があります。法は南部連合で最も有名な都市です。国はGuateです。「公式に主要な人々」というフレーズが大好き!日常会話でどう使えるのか気になるな。

どの時点でシンプルなマルコフ連鎖が同じか、それ以上になるの?

出力テキストが数語ごとにワードサラダになってる。n-gramカウントを十分にスケールさせることはできないよ。

逆だよ。ニューラルタイプのモデルは、マルコフ連鎖が意味を持っていた時期を遥かに超えてる。マルコフモデルは計算スタイルに対して意見が強すぎて失敗するんだ。それに対して、線形テンソルと非線形関数の組み合わせは、情報のトポロジーを変える柔軟性がすごい。十分な大きさのテンソルがあれば、再帰を持つ2層であれば、静的でも動的でも任意のマッピングを学習できる。大規模な計算以外の先入観は必要ないよ。他のニューラルアーキテクチャは、計算の要求を下げるためのスパースな配置に過ぎない。スパースさは問題のタイプに合わせて調整される。スパースさは、より深いけど狭い情報の流れ(つまり「深層」学習)にもなるし、重みの数を減らすことにもなる(共有重み、例えば畳み込みみたいに)。

最適化された小型モデルのトレーニングは、利用可能性だけでなく、LLMの科学的研究にも重要なんだ。生物学の研究で酵母のような単純な生物を使うのと同じで、LLMを理解してその挙動をもっとコントロールするためには、興味深い挙動を示す最もシンプルなトランスフォーマーを研究する必要があるよ。

データの「環境」がモデルのトレーニングにすごく影響するから、面白いアナロジーだね。

AI効率オリンピック、始まるぜ!ノートパソコンで、デスクトップで、スマホで?5分、1時間、1日、1週間トレーニングする?ボートの上で?ヤギと一緒に?

ヤギはパラメータが多すぎる、まるでGPT-4みたいだ。

GoatLMにはお金を払う価値があるな。

Mac Studio M3 Ultra 512GBをフルスペックで使ってる。これならお前のヤギも浮かぶぜ!

正直、AIは新しい高価なコンピュータを買わせるためのトリックだと思う。俺は10年以上前のやつからこれを書いてるけど、近くの電気屋のチラシに載ってるコンピュータもそんなに良くないよ。

もっと大きな問題、というか気づきは、このアーキテクチャではノートパソコンやスマホで動かせる能力のあるモデルを作ることができないってこと。つまり、ローカルコンピュートは永遠に実現しないし、サーバーの重要性がますます高まるってことだ。一般的にMLがどう機能するかを考えると、能力を保ちながらモデルサイズを縮小するのは絶対に無理だね。

この投稿はトレーニングについてで、推論のことじゃないよ。ここでの教訓は、役に立つモデルをトレーニングするのにノートパソコンは使えないってこと。少なくとも、何十年もトレーニングしないと無理だね。でも、大きなハードウェアでトレーニングしたモデルをノートパソコンで動かすことはできるよ。俺はいつもそうしてるし、ローカルモデルは今年すごく良くなった。>「能力を保ちながらモデルのサイズを縮小することは絶対に無理だよ。」Qwen3-4Bに言ってやれ!あのモデルは驚くほど能力が高いから。

実際、状況によるんだよね… データとトレーニング時間の要件は、性能の線形向上に対して指数的に増加する傾向がある。だから、トレーニング時間を10倍減らすことで、実際のモデルの90%以上を得ることができることが多いんだ。そして、アーキテクチャや効率のトリックが増えるにつれて、ローカルでできることの上限もそれに応じて上がっていく。トレーニングを改善するためのデータキュレーションの世界もあって、これは小さなモデルにはすごく良いと思うし、まだあまり探求されていないようだね。

今のところ、地球上で最高のLLMはGemini Pro 2.5とGemini Flash 2.5だね。これに匹敵するものはないよ。これらに良いシステムプロンプトを設定すれば、本当に他には比べられない。高いベンチマークを持つモデルの多くは、実際のタスクでは全然比較にならない。qwen3やdeepseek r1なんて、Gemini Pro 2.5の1/10も良くないよ。

じゃあ、それらは最高じゃないね。ほとんどのユーザーはプロンプトエンジニアじゃないし、Googleに検索ワードを入れて結果を得ることを期待して育ってきたんだ。もしOpenAIやAnthropicがユーザーの意図を最もよく解釈できるなら、彼らが最高だっていうのは良い議論になるよ。

「実際のタスクでは比較にならないよ。」 詳しく教えてくれない?ジェミニがどうやってこのタスクを成功させたのか、他のモデルがどう失敗したのか。

これはLSTMを使っておもちゃのモデルを訓練するObfuscated C Contestのエントリーだよ。リンクはこちらだよ: https://www.ioccc.org/2019/mills/index.html 5分しかないなら、これがちょうどいいレベルかもね。