世界を動かす技術を、日本語で。

「LLM」における過去6ヶ月の動向を5分で解説

概要

  • PyCon US 2026での5分間ライトニングトークを要約
  • LLMの最新6ヶ月間の進展と「November 2025 inflection point」
  • コーディングエージェントの劇的な進化
  • OpenClawなど新たなAIアシスタントの登場
  • ラップトップでも動く高性能モデルの台頭

PyCon US 2026でのライトニングトーク総括

  • 2026年5月19日、 PyCon US 2026 で5分間のライトニングトークを実施
  • 過去6ヶ月間 のLLM分野の進展を要約
  • November 2025 inflection point が重要な転換点
    • コーディング分野でのLLMの進化が顕著
  • 期間中、「最強」モデルの座が Claude Sonnet 4.5 から GPT-5.1Gemini 3GPT-5.1 Codex Max、そして Claude Opus 4.5 へと5回も移動
    • モデルの優劣は「雰囲気」による評価が多い
  • 各モデルの違いを示すため、 「自転車に乗るペリカンのSVG生成テスト」 を活用
    • ペリカンも自転車も描くのが難しく、AIが訓練していないはずのユニークな課題

コーディングエージェントの飛躍

  • 2025年、OpenAIとAnthropicが Reinforcement Learning from Verifiable Rewards を強化
    • CodexClaude Code との組み合わせでコード品質を向上
  • 11月以降、コーディングエージェントが「たまに使える」から「日常的に使える」レベルに進化
    • 修正に費やす時間が大幅に減少
  • 11月には「Warelay」というリポジトリが初コミット
    • これが後の OpenClaw へと発展

年末年始の実験と新プロジェクト

  • 12月〜1月、多くの開発者が新モデルとエージェントを試用
    • 予想以上の性能に興奮し、野心的なプロジェクトが乱立
  • 自作の micro-javascript ライブラリを使い、Python→Pyodide→WebAssembly→JavaScript→ブラウザという多重実行デモも披露
    • 実用性は低く、後に多くのプロジェクトは静かに終了

OpenClawと「Claw」ブーム

  • 2月、「Warelay」が OpenClaw として大ブームに
    • わずか3ヶ月で世界的注目を集める
  • OpenClaw は「パーソナルAIアシスタント」
    • NanoClawやZeroClawなどから「Claw」という総称が誕生
  • Silicon Valleyで Mac Mini が売り切れ
    • Clawの実行用として人気、デジタルペット的存在
  • Clawの比喩:映画「Spider-Man 2」の Doc Ock のAIアーム

モデル進化とAI描画テスト

  • 2月、 Gemini 3.1 Pro が登場し、さらに質の高いペリカン描画を実現
    • 魚入りバスケットなど細部も表現
  • Googleの Jeff Dean が様々な動物のアニメーションAI生成を披露
    • AI研究所が「ペリカン自転車テスト」に注目し始めた可能性

直近1ヶ月の主な動き

  • Googleが Gemma 4 シリーズをリリース
    • 米国発のオープンウェイトモデルで最高性能
  • 中国の GLM研究所GLM-5.1 (1.5TBの巨大モデル)を公開
    • ハードウェア要件は高いが非常に高性能
  • GLM-5.1によるペリカン描画やアニメーションも高品質
  • North Virginia Opossum on an E-scooter の描画依頼にも対応
    • 「Cruising the commonwealth since dusk」など、創造性も向上

6ヶ月間の総括

  • コーディングエージェントの実用化 が最大の進展
  • ラップトップでも動作可能な オープンウェイトモデル の性能向上
  • Frontierモデルには及ばないが、期待以上の成果を達成

Hackerたちの意見

今、どこかで人間のアーティストがペリカンが自転車に乗っているイラストを描く仕事をしているんだろうね。それが大きなAIラボのトレーニングデータに使われるんだ。

現代の画像生成モデルは、ペリカンが自転車に乗っている画像を簡単に生成できるよ。でも、このテストの目的は、画像を表すSVGテキストを生成することなんだ。これはもっと複雑なんだよね。ラスタ画像をSVGに変換する方法もあるけど、それに時間を使うのはあまり良くないと思う。

ジェミニペリカンのクオリティは、一回のイテレーションでかなりの変化があったけど、他のベンチマークはあまり変わらなかったから、君の言う通りだと思う。ただ、彼らが特にペリカンを狙ったのか、単にSVGを狙ったのかは分からないけど。

そんな馬鹿げたタスクのためにAIラボがモデルを訓練するなんてありえないよ。サイモンのブログがこんなに人気になってる今、それが本当かどうか分からなくなってきた。

サイモンは記事の中で、ジェフ・ディーンのペリカンが自転車に乗るタスクに関する投稿を引用して、現在のモデルがそれをうまくこなせることから、もうそれが良いベンチマークではないと言っています。そこで登場するのが、電動スクーターに乗ったオポッサムです!

だから、AIラボは結局ちゃんと注目してたのかもね! > これは主に、ペリカンが自転車に乗ることが有用なベンチマークとしての限界をしっかり超えたことを示していると思う。記事でも認められている通り。

その部分は多分、トークの中ではうまくいくと思う。後でのジョークのための前振りだったから。

2025年12月が私にとってのブレイクスルーだった。1月のClaudeは興奮してたし、ChatGPTも良かった。2月のGeminiは一瞬良かった。3月は素晴らしかった。4月は大きな nerf があったけど、5月のGPT 5.5は純粋な喜びだった。ただ、一時的に制限が2倍になったけど、Claudeはまだまあまあで、前ほど良くはないけど、計算能力が増えてきて、徐々に制限が緩和されている感じ。

私にとって、Opus 4.6のピークは「これが良いって分からない人がいるの?」って感じだった。その後、弱体化して、4.7のトークンが大幅に増えたけど、これは怠惰で幻覚を見やすいモデルだと思う。そろそろGPT5.5を試す時かも。今は多くの人と同じように、アンソロピックエコシステムにかなり投資してるから、切り替える強い理由があると思う。

君の感情的な言葉遣いは本当に興味深いね。ドラッグについてそんな風に話す人を聞いたことがあるよ。

失礼なこと言うつもりはないけど、ちょっと頭が悪そうに聞こえるよ。

「転換点」って本当にあるのかな、それともマーケティングの一環なのかな。モデルは少し良くなったと思うけど、最新のモデル(Codexとgpt5.5、gpt5.3-codexの組み合わせ)でゲームを「バイブコード」しようとすると、やっぱり苦労するんだよね。最低限のものは動かせるけど、完全なアプリケーションには程遠い。

これは本当に実感してる。ここ2ヶ月くらいで、ローカル開発用のClaudeがかなり改善されたと思う(ただ、モデルの強さよりも能力を活かすことが大きいと思うけど)。1mのコンテキストは大きな違いだよね(コンパクトだと約30分対2.5時間で、AIにやらせる範囲がかなり広がる)。もう一つの大きな違いは、実際に仕事をするバランスが良くなったこと。AIには、私が言っていることが間違っていると思ったら教えてほしいけど、確認したらそれでもやってほしいんだ。数ヶ月前のClaudeは「これは多すぎるからやらない」とか、「そのアイデアは天才だ」と言って(そして実行するふりをする)か、同じくらい役に立たないことを言うことが多かった。

2025年11月のOpus 4.5は、間違いなく転換点だったし、今の熱狂の唯一の理由だと思う。GPT 5.5はGPT 5.4に比べて大きな改善だけど、転換点とは呼べないかな。

プログラマーじゃなかった私にとっては、以前はPythonスクリプトをアップロードしてこの関数を追加してとか言うと壊れてたのが、今はClaudeやChatGPTモデルでは大体うまくいくようになった。Google Geminiはまだ壊れることがあるけど、すぐに発表される新しいフラッシュモデルはかなり良いって噂だよ。私は普段、CSVファイルのデータを扱って、スプレッドシートやPDFを生成してるけど、その結果は劇的に改善された。

パラドックスだけど、システムがコア能力において限界収益逓減を始めても、複数のインフレクションポイントが得られることがあると思う。これは「しきい値を超える」ことに起因していて、何かが「特定の目的に対して十分良くなる」と、能力が解放されるんだよね。昔の「釘打ち機」は重くて、電源コードも太くて、すごく高かった。軽くなって、安くなって、バッテリーパックができたことで、ある時点からは、屋根工事のプロセスにシームレスに溶け込んで、できる作業が劇的に増えたんだ。そこからのマージナルな改善は、しきい値を超えたから同じ「解放」をもたらさないかもしれない。

変化を感じてる。オートコンプリートツールから、5つのタスクを並行して実行するエージェントに変わった。私が監視するだけで済むから、改善はものすごい。

これ、すごくはっきり覚えてる。Opus 4.5の前は、かなり手取り足取りやってて、自分でたくさんコードを書いてたけど、それ以降はほとんどコードを書いてない。エニグマ暗号機の仕組みを学ぶために少し自分で書いたけど、プロとしては11月以来、コードを書くのをやめた。

純粋に雰囲気だけのコードは通用しないよ。優れたアーキテクチャを定義して、素晴らしい仕様を持って、しっかりした計画を立てて、その計画を小さなフェーズに分けて、コンテキストウィンドウにうまく収まるようにする必要がある。各フェーズの実装にはTDDと自動コードレビューを使って、QAとコードレビューもやるべき。どの時点でも、エージェントが他のエージェントの出力をレビュー、検証、テストして、出力が完璧になるまで反復する必要がある。そして、良いエンドツーエンドテストも必要。私の意見では、1日あたり数千万トークン以上使わないと、ちゃんとやってるとは言えない。

最近、Codex 5.5とClaude Code Opus 4.7を組み合わせて、結構面白いことをやってみたよ。最初に全体のデザインドキュメントを作るのに時間をかけて、それを具体的で限られたフェーズに分けてる。みんなが満足するまでこのドキュメントを行ったり来たりしてるんだ。各フェーズごとに実装計画を作って、最後に何が納品されたか、何が発見されたかをまとめたドキュメントを作る。これが次のフェーズの入力になるんだ。ドキュメントや彼らがやってることもチェックしてるし、テストも確認してる。中にはもっと徹底的にやることもあるし、コードの構造が気に入るかどうかを確認するためにスポットチェックもしてる。主にClaudeをコーディングに使って、Codexはデザインやフェーズ後のコードレビューに使ってる。フェーズ後には両方にテストカバレッジをチェックさせてる。こうやって一行もコードを書かずにツールやライブラリを実装できたから、すごく助かってる。非同期だから、彼らが進んでる間に他のこともできるしね。ただ、これは普遍的ではないと思う。簡単にテストできて、達成したいことがはっきりしているけど、どうやってやるかは必ずしも決まってないものには感心してる。

うまくいった人もいるけど、私にとっては「バイブコーディングゲーム」はまだ普通のサイトやウェブアプリには達してないな。物理、クリエイティビティ、アセット、UI/UXはまだモデルにかなり手助けが必要だし、ポイント&クリックみたいなインターフェースベースのゲームはやりやすいけどね。

もし君が脆弱性リサーチャーか、一般的にセキュリティ関係の人なら、今年の春から大きな転機があったよ。

もうちょっと具体的に言ってくれる?

セキュリティ関係の仕事をしてるんだけど、経験があんまりないから、他の人の意見を聞きたいな。

クロード・ミトスのことを言ってるの?

それが良い変化になるかどうかは、まだわからないね。楽観的な見方をすれば、モデルが脆弱性を見つけるのがすごく上手だから、ビルドパイプラインに組み込めば新しい脆弱性がゼロに近づくってこと。悲観的な見方をすれば、今はレビューが少ないジュニアレベルのコードが増えて、全体的に脆弱性が増えるってこと。しかも、見つけるのが安くて簡単だから、混乱を覚悟しておいた方がいい。短期的には、モデルが古いバグを見つけるのに十分なレベルだから、どちらにしても混乱は避けられないだろうし、Mozillaがやろうとしているように、みんなが先を行こうとするリソースや意欲を持っているわけじゃないからね。

プログラマーじゃない視点からこの6ヶ月がどうだったのか気になるな。他の分野の人たちはどんなコワーキングツールや最適化を経験してるのかな?

オフィスのClaudeは、周りの非技術者にとっての転機だったよ。みんなのスライドデッキが完璧になった。ファイナンスもBIの助けがほとんど必要なくなったし、かなり印象的だね。

ビジネスでは、コワーキングツールを使ってメールのレビューや提案をしたり、ファイルやフォルダを管理したり、毎日イントラネットで面白くて関連性のあるコンテンツを探してる。プライベートでは、妻が母国語で非ネイティブの小学生や高校生に家庭教師をしてるんだけど、彼らも今はこれらのツールを使って、学校の授業計画に基づいた新しいコンテンツを生成してる。子供たちは数ヶ月前よりもずっと早く成長してるよ。

私の本業はテック業界じゃないんだ。編集者なんだけど、過去4年間で何も変わってないよ。

うちの会社はAIを企業向けに展開してるんだけど、普通のオフィスワーカーはCopilot(IDEじゃなくて、Windowsにバンドルされてるアプリ)に驚いてるよ。みんな、企業が提供するChatGPTやGeminiに素材をコピー&ペーストして、FacebookやInstagramから仕事の生産性を上げるためのベストな5つのプロンプトをもらってる。仕事を自動化するエージェントを見せると、すごく魔法みたいな体験になるんだ。

元データサイエンティストとして、3ヶ月前からコードエージェントを使い始めたよ。それまではウェブでチャット完了を使ってたんだけど、今はほとんどすべてのドキュメントをコードエージェントで出力してる。

私は見習いを指導しているインストラクターです。新しい上司は業界に約20年いて、会社で最も尊敬されている人の一人です。彼女は教えるために私たちに参加したばかりで、今は2週間のコースを受けています。初日に、AIにすべての授業計画を作らせて、それをAIに渡してスライドを作らせるように言われたそうです… 彼女がこれをすぐに拒否してくれることを願ってるけど、もし拒否しなかったら、私たちの研修生は彼女の経験や人柄、彼女が伝えたいことを受けられなくなっちゃう。インストラクターとして、私たちは6ヶ月ごとに同じことを言われるんだ。「AIを使ってどうやって教えることができるか?」 彼らは、なぜこれが望ましいのか、必要なのかを正当化する必要すら感じていない。ただの流行に乗ってるだけ。信じられないことに、ほとんどの同僚はAIに対して非常にポジティブだけど、授業の準備以外に使ってるって言った人はいない。考えずに、準備に時間をかけずに済むから使ってるだけ… それが仕事で一番重要なことなのに。全然理解できない。

クロード・コーワークって、今はM365(だったかな?)って名前になったMicrosoftのやつを通じて、うちの組織のパワーポイントプレゼンテーションを全部作ってるんじゃないかな。Teamsに入ってるAIが毎回の会議を文字起こししてくれるんだけど、これがめちゃくちゃ優秀なんだよね。前の会議からの要点をまとめたり、必要な情報を探したりするのも得意だし。ただ、これのおかげで自分の書き方がどれだけダサいか見せつけられるのがちょっと嫌だな。「うん、えーっと、そうだね、うん」みたいな感じで。だけど、本当にすごいと思う。Microsoftのクライアント内でこのコーワークを使ったAIが爆発的に増えるのは間違いないと思う。実際、Librechatっていうツールがあって、これを使うと自分のエージェントを作ったり設定したりできるし、OneDriveへのアクセスもできるし、Claudeよりも多くのツールやモデルが使えるんだ。でも、ほとんどの人が使い方を理解できてないから、普通のOffice365のコパイロットを使ってるんだけど、これが本当にひどくて、AIに対する信頼を失ってる人が多い。MicrosoftがAIでつまずいてるのは皮肉だけど、企業向けのサービス(特にIT以外)には強いから、実際に使えるAIツールを売る会社になるんじゃないかな。なんでみんな、私たちのエクイティファンドを通じてアクセスできるLibrechatツールを使うのがこんなに難しいのか全然わからない。これ、ほぼChatGPTのコピーで、エージェントをポイント&クリックで設定できるのに、プライベートでChatGPTをよく使ってる社員ですら、これをプロで使わないのが不思議。逆に、Microsoftのやつはみんな使えてるのが面白い。個人的には、設定ファイルを毎回プロンプトに追加しなきゃいけないから、使いにくいと思うんだけど。

俺が見る限り、「自転車に乗ったペリカン」の画像を生成するモデルの話ばっかりだね。

そうそう、「自転車に乗ったペリカン」って、LLMの仕組みを理解してないことの究極のテストだよね。まあ、それに加えて、テストデータの再現が進歩の良い指標だと信じてることもね。

AIの真のテストは、ウィル・スミスがスパゲッティを食べることだってみんな知ってるよね。

この人のブログエディタには「HNのフロントページに公開」ボタンでもあるの?

GoogleはGemma 4シリーズのモデルをリリースしたけど、これはアメリカの会社から見た中で最も優秀なオープンウェイトモデルだよね。他の国にもっといいモデルがあるってこと?ちょっと気になってるんだけど!Gemmaは効率的だって知ってるけど、QwenやKiwiが最適化されてるって言われてたのも覚えてる。Gemmaはトークンを少なく使ってるけど、Qwen/Kiwiの方が質が高いのかな?よくわからない。

Geminiに「ハイドパークで一輪車に乗ったペリカン」の動画をお願いしたら、すごい出力が返ってきたよ!: https://gemini.google.com/share/55e250c99693