「LLM」における過去6ヶ月の動向を5分で解説

2026年5月19日原文(simonwillison.net)

概要

PyCon US 2026での5分間ライトニングトークを要約
LLMの最新6ヶ月間の進展と「November 2025 inflection point」
コーディングエージェントの劇的な進化
OpenClawなど新たなAIアシスタントの登場
ラップトップでも動く高性能モデルの台頭

PyCon US 2026でのライトニングトーク総括

2026年5月19日、 PyCon US 2026 で5分間のライトニングトークを実施
過去6ヶ月間 のLLM分野の進展を要約
November 2025 inflection point が重要な転換点
- コーディング分野でのLLMの進化が顕著
期間中、「最強」モデルの座が Claude Sonnet 4.5 から GPT-5.1、 Gemini 3、 GPT-5.1 Codex Max、そして Claude Opus 4.5 へと5回も移動
- モデルの優劣は「雰囲気」による評価が多い
各モデルの違いを示すため、 「自転車に乗るペリカンのSVG生成テスト」 を活用
- ペリカンも自転車も描くのが難しく、AIが訓練していないはずのユニークな課題

コーディングエージェントの飛躍

2025年、OpenAIとAnthropicが Reinforcement Learning from Verifiable Rewards を強化
- Codex や Claude Code との組み合わせでコード品質を向上
11月以降、コーディングエージェントが「たまに使える」から「日常的に使える」レベルに進化
- 修正に費やす時間が大幅に減少
11月には「Warelay」というリポジトリが初コミット
- これが後の OpenClaw へと発展

年末年始の実験と新プロジェクト

12月〜1月、多くの開発者が新モデルとエージェントを試用
- 予想以上の性能に興奮し、野心的なプロジェクトが乱立
自作の micro-javascript ライブラリを使い、Python→Pyodide→WebAssembly→JavaScript→ブラウザという多重実行デモも披露
- 実用性は低く、後に多くのプロジェクトは静かに終了

OpenClawと「Claw」ブーム

2月、「Warelay」が OpenClaw として大ブームに
- わずか3ヶ月で世界的注目を集める
OpenClaw は「パーソナルAIアシスタント」
- NanoClawやZeroClawなどから「Claw」という総称が誕生
Silicon Valleyで Mac Mini が売り切れ
- Clawの実行用として人気、デジタルペット的存在
Clawの比喩：映画「Spider-Man 2」の Doc Ock のAIアーム

モデル進化とAI描画テスト

2月、 Gemini 3.1 Pro が登場し、さらに質の高いペリカン描画を実現
- 魚入りバスケットなど細部も表現
Googleの Jeff Dean が様々な動物のアニメーションAI生成を披露
- AI研究所が「ペリカン自転車テスト」に注目し始めた可能性

直近1ヶ月の主な動き

Googleが Gemma 4 シリーズをリリース
- 米国発のオープンウェイトモデルで最高性能
中国の GLM研究所 が GLM-5.1 （1.5TBの巨大モデル）を公開
- ハードウェア要件は高いが非常に高性能
GLM-5.1によるペリカン描画やアニメーションも高品質
North Virginia Opossum on an E-scooter の描画依頼にも対応
- 「Cruising the commonwealth since dusk」など、創造性も向上

6ヶ月間の総括

コーディングエージェントの実用化 が最大の進展
ラップトップでも動作可能な オープンウェイトモデル の性能向上
Frontierモデルには及ばないが、期待以上の成果を達成

Hackerたちの意見

今、どこかで人間のアーティストがペリカンが自転車に乗っているイラストを描く仕事をしているんだろうね。それが大きなAIラボのトレーニングデータに使われるんだ。

└

現代の画像生成モデルは、ペリカンが自転車に乗っている画像を簡単に生成できるよ。でも、このテストの目的は、画像を表すSVGテキストを生成することなんだ。これはもっと複雑なんだよね。ラスタ画像をSVGに変換する方法もあるけど、それに時間を使うのはあまり良くないと思う。

└

ジェミニペリカンのクオリティは、一回のイテレーションでかなりの変化があったけど、他のベンチマークはあまり変わらなかったから、君の言う通りだと思う。ただ、彼らが特にペリカンを狙ったのか、単にSVGを狙ったのかは分からないけど。

そんな馬鹿げたタスクのためにAIラボがモデルを訓練するなんてありえないよ。サイモンのブログがこんなに人気になってる今、それが本当かどうか分からなくなってきた。

└

サイモンは記事の中で、ジェフ・ディーンのペリカンが自転車に乗るタスクに関する投稿を引用して、現在のモデルがそれをうまくこなせることから、もうそれが良いベンチマークではないと言っています。そこで登場するのが、電動スクーターに乗ったオポッサムです！

└

だから、AIラボは結局ちゃんと注目してたのかもね！ > これは主に、ペリカンが自転車に乗ることが有用なベンチマークとしての限界をしっかり超えたことを示していると思う。記事でも認められている通り。

└

その部分は多分、トークの中ではうまくいくと思う。後でのジョークのための前振りだったから。

2025年12月が私にとってのブレイクスルーだった。1月のClaudeは興奮してたし、ChatGPTも良かった。2月のGeminiは一瞬良かった。3月は素晴らしかった。4月は大きな nerf があったけど、5月のGPT 5.5は純粋な喜びだった。ただ、一時的に制限が2倍になったけど、Claudeはまだまあまあで、前ほど良くはないけど、計算能力が増えてきて、徐々に制限が緩和されている感じ。

└

私にとって、Opus 4.6のピークは「これが良いって分からない人がいるの？」って感じだった。その後、弱体化して、4.7のトークンが大幅に増えたけど、これは怠惰で幻覚を見やすいモデルだと思う。そろそろGPT5.5を試す時かも。今は多くの人と同じように、アンソロピックエコシステムにかなり投資してるから、切り替える強い理由があると思う。

└

君の感情的な言葉遣いは本当に興味深いね。ドラッグについてそんな風に話す人を聞いたことがあるよ。

└

失礼なこと言うつもりはないけど、ちょっと頭が悪そうに聞こえるよ。

「転換点」って本当にあるのかな、それともマーケティングの一環なのかな。モデルは少し良くなったと思うけど、最新のモデル（Codexとgpt5.5、gpt5.3-codexの組み合わせ）でゲームを「バイブコード」しようとすると、やっぱり苦労するんだよね。最低限のものは動かせるけど、完全なアプリケーションには程遠い。

Hacker Newsで議論の続きを見る

ハクソク