概要
- Meta における2022~2023年の機械学習の潮流
- LLMとレコメンデーションシステム の複雑化の比較
- Attention機構 やMixture-of-Expertsなどの多様化
- パフォーマンス最適化 と 柔軟性 の両立課題
- Composable設計 の重要性と最新事例
Metaにおける機械学習の進化と複雑化
- 2022年から2023年、Metaでは2つの大きな機械学習分野が進行
- LLM(Llamaに繋がるTransformerベースのスタック)
- レコメンデーションシステム(複雑なグラフ構造)
- 当初、LLMは シンプルなTransformer構造 で構成
- レコメンデーションシステムは 複雑で難解な構造 が特徴
- 業界全体で LLMも急速に複雑化 し、Attentionバリアントの多様化が進行
- Query grouping、Compressed、Sparse、Linear、Sliding-windowなど
- Mixture-of-Expertsの導入により、 Feed-forward層やAttentionブロック、Residual stream まで選択的ルーティングが拡大
- VisionやAudioエンコーダ も統合され、マルチGPU推論が一般化
- 通信処理によるモデル内部の境界発生
レコメンデーションシステムのアーキテクチャと課題
- レコメンデーションシステムの基本構造は 二塔型スパースニューラルネット が主流
- 複雑さの根源は 能力向上と効率性(特に推論) の両立要求
- 最適化が必須 となり、性能改善が直接的な必要条件へ
- モデル定義の純粋性 を保ちつつも、実運用では リソース負荷と性能向上 が不可分
- Attentionバリアントの交換は、 性能劣化の許容範囲 が限定的
- 10%遅延は許容、1桁違いの遅延は不可
- 最適化済みA と比較するには、 Bも部分的に最適化済み である必要
- 研究開発サイクルには 柔軟性 が必須
- 手作業の最適化と自動生成の両立が課題
Composability設計の重要性と実践例
- Composable設計 が唯一の解決策
- 事前に組み合わせ可能かつ検証可能な設計が求められる
- PyTorchの FlexAttention は注目のカーネル開発事例
- 多様なAttention操作をTritonテンプレートでカーネル自動生成
- パフォーマンスへの影響を最小限に抑えつつ、探索と検証が容易
- Andrej KarpathyのAnthropic参加も 自動研究ループ の発展が目的
- Composableアーキテクチャ の本質的な簡素化が、エージェント的アプローチと同等以上に重要
- Content UnderstandingとIntegrity に従事する小規模チームにも言及
今後の展望とまとめ
- Composable設計 の推進が、今後のLLMやレコメンデーションシステムの発展に不可欠
- 最適化と柔軟性 の両立を実現するための設計思想の変革
- 研究サイクルの高速化 と 実運用性能の両立 に向けた技術進化