これらのアーキテクチャを最大限に活用するには、基本的に「重み」から知識や能力をもっと移動させて、ハードウェアの能力に比例した形でシステムの補完的な部分に組み込むことが鍵だと思う。ここ数ヶ月で、小さなモデルがこのAIトランスコーディングのニッチを占めるようになって、爆発的に増えてる。私が期待しているのは、ツール適応の爆発が起こること。LLMがある程度固定されたツールや問題ケースと組み合わさることで、一般性を少し犠牲にして特化した役割を果たせるようになること。トランスコーディング関連のタスクは、一般的にデバイスのユーザーが実際にやっていることと同期しているから、ユーザーのハードウェアの能力ややりたいことに密接に関連してる。だから、今のところほとんどの人はこういうことを意識してないと思う。習慣的にそうなってるんじゃないかな。今や個人用コンピュータを「孤立したハードウェア」と考えるのが意味を持つようになったから。ローカルデバイスでのMoEに対して正しいアプローチを取れば(ローカルLLMが向かっている方向)、VRAMに重みを出し入れする高コストを、ユーザーがまだ価値を感じるような極端なバッチユースケースで相殺できるかもしれない。LoRaはこれにとってすごく役立つけど、時には数層の違い以上の専門知識や特化が必要なこともある。今、これを実験中なんだ。論文と同じ基本原則だけど、技術的な最適化よりも作業負荷の最適化に近い。あと、これは文字通り機械文化の始まりだから、なんかクールだよね。