概要
- 2025年6月、AI Engineer World’s Fairでの基調講演内容の要約
- 過去6ヶ月間のLLM(大規模言語モデル)の進化と主要リリースの紹介
- 独自ベンチマーク「ペリカン自転車SVG生成テスト」について
- 各モデルの特徴・価格・描画能力の比較
- モデル評価とランキング手法の説明
AI Engineer World’s Fair 2025 基調講演要約:「過去6ヶ月のLLM動向」
- 2025年6月、San Franciscoで開催されたAI Engineer World’s Fairにて3度目の基調講演担当
- 講演テーマは「過去6ヶ月のLLM」
- 当初は「過去1年」を予定も、急速な進化で6ヶ月に範囲を縮小
- 30以上の注目モデルがこの半年で登場
- 主要モデルのほとんどが直近6ヶ月以内にリリース
- モデル評価の課題
- ベンチマークやリーダーボードの信頼性低下
- 各自で独自の評価基準が必要
独自ベンチマーク:ペリカン自転車SVG生成
- LLMに「自転車に乗るペリカンのSVG生成」を依頼
- 本来描画能力のないテキスト出力LLMに難題を与えるテスト
- SVGはコードであり、LLMがコード生成能力を発揮
- ペリカンや自転車は描画が難しく、非現実的な組み合わせで難易度上昇
- SVGのコメント機能により、モデルの意図も可視化
主要モデルの進化と特徴
- 2023年11月:Amazon Novaシリーズ(1Mトークン対応、低価格)
- 2023年12月:Meta Llama 3.3 70B(個人PCで動作可能な高性能モデル)
- 2023年12月:DeepSeek(中国)、オープンウェイトモデルをHugging Faceで公開
- 低コスト・高性能で話題
- 2024年1月:DeepSeek R1 Reasoningモデル(OpenAI o1と競合)
- 株式市場に大きな影響、NVIDIA時価総額が大幅減少
- 2024年1月:Mistral Small 3(24B、低メモリで動作、Llama 3.3 70B並み性能)
- 2024年2月:Anthropic Claude 3.7 Sonnet(推論能力追加、描画も良好)
- 2024年2月:OpenAI GPT-4.5(高価格・性能伸び悩み、短期間で廃止)
- 2024年3月:OpenAI o1-pro(さらに高価格)、Google Gemini 2.5 Pro(高性能・低価格)
- 2024年3月:OpenAI GPT-4o(マルチモーダル画像生成、爆発的ユーザー獲得)
- ChatGPTの「メモリー」機能でユーザー入力制御の課題発生
- 2024年4月:Meta Llama 4(巨大モデルで一般利用困難、描画能力も課題)
- 今後のマイナーバージョンに期待
- 2024年4月:OpenAI GPT-4.1(1Mトークン・低価格、API利用の新定番)
- 2024年4月:OpenAI o3/o4-mini(現行フラッグシップ、描画能力も向上)
- 2024年5月:Anthropic Claude 4(Sonnet 4/Opus 4)、Google Gemini 2.5 Pro Preview 05-06(名称の覚えにくさが課題)
モデル評価・ランキング手法
- 30種以上の「ペリカン自転車SVG画像」を収集
- 独自ツール「shot-scraper」で画像を並列比較し、全組み合わせ(560通り)を作成
- LLM CLIツール(gpt-4.1-mini利用)で各ペアの優劣判定&理由をJSON形式で出力
- Eloレーティング計算でモデルごとのランキングを作成
- 全工程の自動化で効率的な比較評価を実現
今後のLLM評価・利用のポイント
- 膨大なモデルの中から最適なものを選ぶには、独自の評価基準と自動化が重要
- 低価格・高性能・ローカル動作可能なモデルの増加
- マルチモーダルや推論能力の強化が今後のトレンド
- モデル名やバージョン管理の分かりやすさも選定基準
- ユーザー入力や文脈制御機能の進化と、それに伴う利用者側のコントロール意識の必要性
参考・追加リソース
- AI Engineer YouTubeチャンネル:講演動画
- llm-prices.com:各モデルの価格比較表
- shot-scraper:CLIスクリーンショットツール
- 関連論文や技術記事へのリンク(詳細はスライド参照)
まとめ
- LLM分野は半年で大きく進化
- 独自ベンチマークや自動化評価ツールの活用が必須
- 低コスト・高性能化、マルチモーダル対応が急速に進展
- 今後も継続的な情報収集と評価基準のアップデートが重要