世界を動かす技術を、日本語で。

LLMの過去6ヶ月を、自転車に乗ったペリカンで描く

概要

  • 2025年6月、AI Engineer World’s Fairでの基調講演内容の要約
  • 過去6ヶ月間のLLM(大規模言語モデル)の進化と主要リリースの紹介
  • 独自ベンチマーク「ペリカン自転車SVG生成テスト」について
  • 各モデルの特徴・価格・描画能力の比較
  • モデル評価とランキング手法の説明

AI Engineer World’s Fair 2025 基調講演要約:「過去6ヶ月のLLM動向」

  • 2025年6月、San Franciscoで開催されたAI Engineer World’s Fairにて3度目の基調講演担当
  • 講演テーマは「過去6ヶ月のLLM」
    • 当初は「過去1年」を予定も、急速な進化で6ヶ月に範囲を縮小
  • 30以上の注目モデルがこの半年で登場
    • 主要モデルのほとんどが直近6ヶ月以内にリリース
  • モデル評価の課題
    • ベンチマークやリーダーボードの信頼性低下
    • 各自で独自の評価基準が必要

独自ベンチマーク:ペリカン自転車SVG生成

  • LLMに「自転車に乗るペリカンのSVG生成」を依頼
    • 本来描画能力のないテキスト出力LLMに難題を与えるテスト
    • SVGはコードであり、LLMがコード生成能力を発揮
  • ペリカンや自転車は描画が難しく、非現実的な組み合わせで難易度上昇
  • SVGのコメント機能により、モデルの意図も可視化

主要モデルの進化と特徴

  • 2023年11月:Amazon Novaシリーズ(1Mトークン対応、低価格)
  • 2023年12月:Meta Llama 3.3 70B(個人PCで動作可能な高性能モデル)
  • 2023年12月:DeepSeek(中国)、オープンウェイトモデルをHugging Faceで公開
    • 低コスト・高性能で話題
  • 2024年1月:DeepSeek R1 Reasoningモデル(OpenAI o1と競合)
    • 株式市場に大きな影響、NVIDIA時価総額が大幅減少
  • 2024年1月:Mistral Small 3(24B、低メモリで動作、Llama 3.3 70B並み性能)
  • 2024年2月:Anthropic Claude 3.7 Sonnet(推論能力追加、描画も良好)
  • 2024年2月:OpenAI GPT-4.5(高価格・性能伸び悩み、短期間で廃止)
  • 2024年3月:OpenAI o1-pro(さらに高価格)、Google Gemini 2.5 Pro(高性能・低価格)
  • 2024年3月:OpenAI GPT-4o(マルチモーダル画像生成、爆発的ユーザー獲得)
    • ChatGPTの「メモリー」機能でユーザー入力制御の課題発生
  • 2024年4月:Meta Llama 4(巨大モデルで一般利用困難、描画能力も課題)
    • 今後のマイナーバージョンに期待
  • 2024年4月:OpenAI GPT-4.1(1Mトークン・低価格、API利用の新定番)
  • 2024年4月:OpenAI o3/o4-mini(現行フラッグシップ、描画能力も向上)
  • 2024年5月:Anthropic Claude 4(Sonnet 4/Opus 4)、Google Gemini 2.5 Pro Preview 05-06(名称の覚えにくさが課題)

モデル評価・ランキング手法

  • 30種以上の「ペリカン自転車SVG画像」を収集
  • 独自ツール「shot-scraper」で画像を並列比較し、全組み合わせ(560通り)を作成
  • LLM CLIツール(gpt-4.1-mini利用)で各ペアの優劣判定&理由をJSON形式で出力
  • Eloレーティング計算でモデルごとのランキングを作成
  • 全工程の自動化で効率的な比較評価を実現

今後のLLM評価・利用のポイント

  • 膨大なモデルの中から最適なものを選ぶには、独自の評価基準と自動化が重要
  • 低価格・高性能・ローカル動作可能なモデルの増加
  • マルチモーダルや推論能力の強化が今後のトレンド
  • モデル名やバージョン管理の分かりやすさも選定基準
  • ユーザー入力や文脈制御機能の進化と、それに伴う利用者側のコントロール意識の必要性

参考・追加リソース

  • AI Engineer YouTubeチャンネル:講演動画
  • llm-prices.com:各モデルの価格比較表
  • shot-scraper:CLIスクリーンショットツール
  • 関連論文や技術記事へのリンク(詳細はスライド参照)

まとめ

  • LLM分野は半年で大きく進化
  • 独自ベンチマークや自動化評価ツールの活用が必須
  • 低コスト・高性能化、マルチモーダル対応が急速に進展
  • 今後も継続的な情報収集と評価基準のアップデートが重要

Hackerたちの意見

サイモンのこの分野での仕事、めっちゃ楽しんでるよ。彼が投稿したブログ記事はほぼ全部読んだし、モデルをいじくり回して何が出てくるか見るのが大好き。CLIツールもすごく使いやすくて、お互いにうまく補完し合ってるし、あまり無理をしないのがいいね。結局、誰かが楽しんでるのを見るのって本当に楽しい。彼はまるでお菓子屋さんの子供みたいで、そのワクワク感が伝染するんだよね。彼のブログ記事を全部読んだ後、LLMを新しい面白い方法で遊んでみたくなるよ。ありがとう、サイモン!

一番の不満は、彼が確率モデル(LLM)を一つのサンプルで比較してることだね。ランダム数生成器を比べるのに、各生成器から一つのサンプルを取って、生成器5が一番高い数字を出すって結論づけるなんてありえないでしょ…。各LLMについて10枚(もっとでもいいけど)の画像で比較して、平均を取る方がいいと思う。

あなたの言う通りだけど、これらのモデルを作ってる会社は、確率的でないようにマーケティングするためにかなりの努力をしてるんだ。つまり、人々にこれらのモデルが人間のように離散的に動作すると思わせようとしてる。そうなると、完璧な描画スキルとバイクや鳥についての完璧な知識を持つ人間が、そんなシンプルな絵を100%正しく描くことを期待するよね。いずれにせよ、モデルが確率的であっても、関連する知識を正しく学習していれば、出力は完璧であるべきだと思う。そうすればモデルの損失を下げることにつながるから。これらの出力は明らかに知識に欠陥があることを示してる。

そして、そのサンプルはますますベンチマークとして知られるようになってきてる。新しいトレーニングデータには、こういう記事がもっと含まれるから、自然にLLMが「自転車に乗ったペリカン」を良いものとして推定する能力が向上するんだ。

書き方からは100%明確じゃないかもしれないけど、このベンチマークは主にジョークとして意図されてるんだ。これを基にトークを作ったのは、過去6ヶ月のモデルリリースをもっと面白くするための素晴らしい方法だから。各モデルが10枚の画像を出力して、ビジョンモデルがその中から「ベスト」を選んで、他のモデルとのさらなる競争に使うっていう拡張版を考えてるんだ。(その後、異なるモデルファミリーから3つのビジョンLLMを審査員として追加して、各ラウンドで投票させるつもり… それが面白いと思うから、審査員が意見が分かれるケースを追跡するのもいいしね。)でも、全体的に「ベンチマーク」ってかなりバカバカしいから、やる価値があるかどうかは微妙。まだ決めかねてる。

Googleからペリカンを手に入れて、OpenAIからは生の犬をゲットしてるけど、最高のファシストイデオロギーはGrokAIから引っ張ってくるのが一番だね。

あなたが言いたいのは確率的じゃなくて非決定論的ってことだと思うよ。これらのモデルが非決定論的である必要は全くないしね。

一番気に入らないのは、ペリカンの評価を別のLLMに外注しちゃったことだな。確かにそれが楽だったのは分かるけど、コストも時間もほとんどかからなかったしね。でも、他の評価方法を試してみて、結果がどうだったか見てほしかったな。例えば、 * 群衆の知恵(みんなに投票させる) * 専門家の知恵(ペリカンの画像を数十人のアーティストや鳥類学者に送る) * LLMの知恵(複数のLLMを使う) みたいな感じで、人間のコンセンサスがどうだったのか、LLMのコンセンサスと違ったのか見てみたかった。とにかく、素晴らしいトークだったよ!

楽しい内容だけど、Qwen 3が明らかに欠けてるのはどうして?あれは本当に強力なリリースだったし、特に細かいMoEは今までにないものだったよ(性能と消費者ハードウェアでの速度の点で)。

時間の都合でカットしたけど、qwen3もペリカンテストされたよ。https://simonwillison.net/2025/Apr/29/qwen-3/

Qwen 3を省いたのは、このトークでの大きな後悔だよ。正直、トークを終えた後にそれを見逃してたことに気づいたんだ!今はお気に入りのローカルモデルの一つなのに、過去6ヶ月のハイライトを見直してるときにどうして見逃したのか分からない。

ここにClaude Opus Extended Thinkingがあるよ。https://claude.ai/public/artifacts/707c2459-05a1-4a32-b393-c...

Anthropicが何の秘密のソースを持ってるのか分からないけど、実際の使用ではSonnetが今でも一番のモデルだね。OpusやGemini Proよりも優れてるよ。

こういう発言は、試したモデルを全部シェアしないと意味がないよね。例えば、SonnetがO1 Pro Modeより優れてるって?私の経験ではそうじゃなかったけど、最新のSonnetバージョンは試してないから、O1 Pro Modeが全部に勝ってるとは言えないな。それに、すごくコンテキストに依存するから、自分専用のベンチマークがないと、この全体を理解するのは難しいよ。

Claude Sonnet 4を使ったかなり詳細な画像だね。https://ibb.co/39RbRm5W

人間にSVGのドキュメントを渡してSVGを書かせたら、結果はかなり似たようなものになると思うよ。

試してみようよ、もし実験台になってもいいなら :) プロンプトは「自転車に乗ったペリカンのSVGを生成して」だよ。手書きで書くから、グラフィカルエディタは使っちゃダメね。仕様はここにあるよ: https://www.w3.org/TR/SVG2/ でも、いいものを作る前に興味を失いそうだな。

これは史上最も成功した製品ローンチの一つだった。たった1週間で1億の新規ユーザーアカウントが登録されたんだ!1時間で100万の新規アカウントが登録された瞬間もあって、この製品は何度もバイラルになった。恥ずかしいことに、今まで知らなかったよ。いつの間にかアプリに画像生成機能が追加されたことは知ってたけど、そんなに大きなことだとは気づかなかった(それに、すでにオフラインのStable Diffusionアプリを持ってたから、私にとってはあまりアップグレード感がなかったし)。毎週AIのニュースが多すぎて、よっぽど興味がないと、大きなリリースをうっかり見逃したり、軽視したりするのはほぼ不可能だね。

すごく楽しいまとめだった、シェアしてくれてありがとう。これらの技術がどれだけ進化したか、忘れがちだよね。たった6ヶ月でこれだもん!クレイジーだね!

最後のアニメーションはめっちゃ面白い、AIのハイプサイクルと現実をうまく表現してるね。