LLMの過去6ヶ月を、自転車に乗ったペリカンで描く

2025年6月8日原文(simonwillison.net)

概要

2025年6月、AI Engineer World’s Fairでの基調講演内容の要約
過去6ヶ月間のLLM（大規模言語モデル）の進化と主要リリースの紹介
独自ベンチマーク「ペリカン自転車SVG生成テスト」について
各モデルの特徴・価格・描画能力の比較
モデル評価とランキング手法の説明

AI Engineer World’s Fair 2025 基調講演要約：「過去6ヶ月のLLM動向」

2025年6月、San Franciscoで開催されたAI Engineer World’s Fairにて3度目の基調講演担当
講演テーマは「過去6ヶ月のLLM」
- 当初は「過去1年」を予定も、急速な進化で6ヶ月に範囲を縮小
30以上の注目モデルがこの半年で登場
- 主要モデルのほとんどが直近6ヶ月以内にリリース
モデル評価の課題
- ベンチマークやリーダーボードの信頼性低下
- 各自で独自の評価基準が必要

独自ベンチマーク：ペリカン自転車SVG生成

LLMに「自転車に乗るペリカンのSVG生成」を依頼
- 本来描画能力のないテキスト出力LLMに難題を与えるテスト
- SVGはコードであり、LLMがコード生成能力を発揮
ペリカンや自転車は描画が難しく、非現実的な組み合わせで難易度上昇
SVGのコメント機能により、モデルの意図も可視化

主要モデルの進化と特徴

2023年11月：Amazon Novaシリーズ（1Mトークン対応、低価格）
2023年12月：Meta Llama 3.3 70B（個人PCで動作可能な高性能モデル）
2023年12月：DeepSeek（中国）、オープンウェイトモデルをHugging Faceで公開
- 低コスト・高性能で話題
2024年1月：DeepSeek R1 Reasoningモデル（OpenAI o1と競合）
- 株式市場に大きな影響、NVIDIA時価総額が大幅減少
2024年1月：Mistral Small 3（24B、低メモリで動作、Llama 3.3 70B並み性能）
2024年2月：Anthropic Claude 3.7 Sonnet（推論能力追加、描画も良好）
2024年2月：OpenAI GPT-4.5（高価格・性能伸び悩み、短期間で廃止）
2024年3月：OpenAI o1-pro（さらに高価格）、Google Gemini 2.5 Pro（高性能・低価格）
2024年3月：OpenAI GPT-4o（マルチモーダル画像生成、爆発的ユーザー獲得）
- ChatGPTの「メモリー」機能でユーザー入力制御の課題発生
2024年4月：Meta Llama 4（巨大モデルで一般利用困難、描画能力も課題）
- 今後のマイナーバージョンに期待
2024年4月：OpenAI GPT-4.1（1Mトークン・低価格、API利用の新定番）
2024年4月：OpenAI o3/o4-mini（現行フラッグシップ、描画能力も向上）
2024年5月：Anthropic Claude 4（Sonnet 4/Opus 4）、Google Gemini 2.5 Pro Preview 05-06（名称の覚えにくさが課題）

モデル評価・ランキング手法

30種以上の「ペリカン自転車SVG画像」を収集
独自ツール「shot-scraper」で画像を並列比較し、全組み合わせ（560通り）を作成
LLM CLIツール（gpt-4.1-mini利用）で各ペアの優劣判定＆理由をJSON形式で出力
Eloレーティング計算でモデルごとのランキングを作成
全工程の自動化で効率的な比較評価を実現

今後のLLM評価・利用のポイント

膨大なモデルの中から最適なものを選ぶには、独自の評価基準と自動化が重要
低価格・高性能・ローカル動作可能なモデルの増加
マルチモーダルや推論能力の強化が今後のトレンド
モデル名やバージョン管理の分かりやすさも選定基準
ユーザー入力や文脈制御機能の進化と、それに伴う利用者側のコントロール意識の必要性

参考・追加リソース

AI Engineer YouTubeチャンネル：講演動画
llm-prices.com：各モデルの価格比較表
shot-scraper：CLIスクリーンショットツール
関連論文や技術記事へのリンク（詳細はスライド参照）

まとめ

LLM分野は半年で大きく進化
独自ベンチマークや自動化評価ツールの活用が必須
低コスト・高性能化、マルチモーダル対応が急速に進展
今後も継続的な情報収集と評価基準のアップデートが重要

Hackerたちの意見

サイモンのこの分野での仕事、めっちゃ楽しんでるよ。彼が投稿したブログ記事はほぼ全部読んだし、モデルをいじくり回して何が出てくるか見るのが大好き。CLIツールもすごく使いやすくて、お互いにうまく補完し合ってるし、あまり無理をしないのがいいね。結局、誰かが楽しんでるのを見るのって本当に楽しい。彼はまるでお菓子屋さんの子供みたいで、そのワクワク感が伝染するんだよね。彼のブログ記事を全部読んだ後、LLMを新しい面白い方法で遊んでみたくなるよ。ありがとう、サイモン！

一番の不満は、彼が確率モデル（LLM）を一つのサンプルで比較してることだね。ランダム数生成器を比べるのに、各生成器から一つのサンプルを取って、生成器5が一番高い数字を出すって結論づけるなんてありえないでしょ…。各LLMについて10枚（もっとでもいいけど）の画像で比較して、平均を取る方がいいと思う。

└

あなたの言う通りだけど、これらのモデルを作ってる会社は、確率的でないようにマーケティングするためにかなりの努力をしてるんだ。つまり、人々にこれらのモデルが人間のように離散的に動作すると思わせようとしてる。そうなると、完璧な描画スキルとバイクや鳥についての完璧な知識を持つ人間が、そんなシンプルな絵を100%正しく描くことを期待するよね。いずれにせよ、モデルが確率的であっても、関連する知識を正しく学習していれば、出力は完璧であるべきだと思う。そうすればモデルの損失を下げることにつながるから。これらの出力は明らかに知識に欠陥があることを示してる。

└

そして、そのサンプルはますますベンチマークとして知られるようになってきてる。新しいトレーニングデータには、こういう記事がもっと含まれるから、自然にLLMが「自転車に乗ったペリカン」を良いものとして推定する能力が向上するんだ。

└

書き方からは100%明確じゃないかもしれないけど、このベンチマークは主にジョークとして意図されてるんだ。これを基にトークを作ったのは、過去6ヶ月のモデルリリースをもっと面白くするための素晴らしい方法だから。各モデルが10枚の画像を出力して、ビジョンモデルがその中から「ベスト」を選んで、他のモデルとのさらなる競争に使うっていう拡張版を考えてるんだ。（その後、異なるモデルファミリーから3つのビジョンLLMを審査員として追加して、各ラウンドで投票させるつもり… それが面白いと思うから、審査員が意見が分かれるケースを追跡するのもいいしね。）でも、全体的に「ベンチマーク」ってかなりバカバカしいから、やる価値があるかどうかは微妙。まだ決めかねてる。

└

Googleからペリカンを手に入れて、OpenAIからは生の犬をゲットしてるけど、最高のファシストイデオロギーはGrokAIから引っ張ってくるのが一番だね。

└

あなたが言いたいのは確率的じゃなくて非決定論的ってことだと思うよ。これらのモデルが非決定論的である必要は全くないしね。

└

一番気に入らないのは、ペリカンの評価を別のLLMに外注しちゃったことだな。確かにそれが楽だったのは分かるけど、コストも時間もほとんどかからなかったしね。でも、他の評価方法を試してみて、結果がどうだったか見てほしかったな。例えば、 * 群衆の知恵（みんなに投票させる） * 専門家の知恵（ペリカンの画像を数十人のアーティストや鳥類学者に送る） * LLMの知恵（複数のLLMを使う）みたいな感じで、人間のコンセンサスがどうだったのか、LLMのコンセンサスと違ったのか見てみたかった。とにかく、素晴らしいトークだったよ！

楽しい内容だけど、Qwen 3が明らかに欠けてるのはどうして？あれは本当に強力なリリースだったし、特に細かいMoEは今までにないものだったよ（性能と消費者ハードウェアでの速度の点で）。

└

時間の都合でカットしたけど、qwen3もペリカンテストされたよ。https://simonwillison.net/2025/Apr/29/qwen-3/

└

Qwen 3を省いたのは、このトークでの大きな後悔だよ。正直、トークを終えた後にそれを見逃してたことに気づいたんだ！今はお気に入りのローカルモデルの一つなのに、過去6ヶ月のハイライトを見直してるときにどうして見逃したのか分からない。

ここにClaude Opus Extended Thinkingがあるよ。https://claude.ai/public/artifacts/707c2459-05a1-4a32-b393-c...

Hacker Newsで議論の続きを見る

ハクソク