世界を動かす技術を、日本語で。

私のノートパソコンの「Qwen3.6-35B-A3B」は「Claude Opus 4.7」よりも優れたペリカンを描いてくれました。

概要

  • ペリカン自転車ベンチマーク はジョークとして作成
  • Qwen3.6-35B-A3BClaude Opus 4.7 の比較
  • SVG生成タスクで Qwen3.6 が優勢
  • モデルの 実用性とベンチマーク結果 の関係性への疑問
  • Qwen のローカル利用が特定用途では有利

ペリカン自転車ベンチマーク:Qwen3.6 vs Claude Opus 4.7

  • ペリカンが自転車に乗る というベンチマークは、モデル比較の ジョーク的指標
  • 今回は AlibabaのQwen3.6-35B-A3BAnthropicのClaude Opus 4.7 で生成結果を比較
  • Qwen3.6は Unslothによる20.9GBの量子化モデル をMacBook Pro M5でLM Studio経由で実行
  • Claude Opus 4.7は Anthropicの最新モデル としてクラウドで利用
  • Qwen3.6のSVG生成結果が より正確 で、Opusは 自転車フレームを誤る
  • Opusに thinking_level: max を指定しても改善せず

ベンチマークの信頼性と追加テスト

  • 一部で「 ラボがこのベンチマーク向けに訓練している」という疑念があるが、筆者は否定的
  • 念のため「 フラミンゴが一輪車に乗るSVG」生成で追加テストを実施
    • Qwen3.6が サングラス付きフラミンゴ という遊び心のあるSVGコメントを生成
    • このタスクでも Qwen3.6が優勢

ベンチマークの意義とモデルの実用性

  • ペリカンベンチマーク は本来「モデル比較の不条理さ」を皮肉るためのジョーク
  • しかし、 ペリカンの描画品質モデルの実用性 に一定の相関が見られた時期も存在
  • 2024年10月時点のモデルはイラストが酷かったが、最近は Gemini 3.1 Pro なども実用的なレベルに到達
  • ただし今回の比較で、 その相関が崩れた ことを確認
  • Qwen3.6の量子化モデル (21GB)が Anthropicの最新商用モデル より実用的とは考えにくい
  • しかし「ペリカンが自転車に乗るSVG」が必要なら、 Qwen3.6-35B-A3Bのローカル実行 が現時点で最適

Hackerたちの意見

バックアップテストについてはちょっと意見が違うな。オーパスのフラミンゴは実際にペダルとシートがあって、機能するスポークとクチバシもあるんだよね。物理的な現実に対する適合性で言えば、Qwenは完全に外れてると思う。なんで誰かがQwenの出力を好むのか、ちょっと不思議だな。例としては、Qwenがペリカンに対して過剰適合してるかもしれないってことを(ぼんやりと)示唆してる気がする。

Qwenのフラミンゴはアート的にずっと面白いよ。一つ目のサングラスをかけたフラミンゴがボウタイをして、マリファナを吸ってるんだ。一方、オーパスはちょっとダサい、退屈なフラミンゴを作っただけ。地面や空もQwenのバージョンの方がずっと面白い。でも、物理的にあり得るものを作るって意味では、オーパスは確かにかなり近づいてるね。

最初のやつも、Qwenが背景に余計なディテールを加えたのは確かだけど、ペリカン自体はくちばしが曲がったコウノトリで、足が切れてるんだよね。地元のモデルとしては印象的だけど、勝者にはならないと思う。

これは3Bモデルなんだけど、こんなに近いのはおかしいよね。アートのクオリティを細かく議論するのは本質を見失ってる気がする。

「楽しさ」の要素は理解できるけど、今のところこのペリカンが何を証明してるのか本当に疑問だね。プロバイダーは望めば適応できたはずだし、モデルが潜在的な分布外のコンテキストにどれだけ適応するかをテストしたいなら、同じ動物ばかりじゃなくて、いろんな動物と異なるアクティビティタイプを混ぜる方が価値があるかも(スケボーに乗ったクジラとか)。

だから、フラミンゴを一輪車でやったんだ。今朝のちょっとした瞬間、ペリカンのためにトレーニングしてるモデルプロバイダーをついに見つけたかと思ったけど、フラミンゴがそれじゃないって納得させてくれたよ。

彼らはテストのことを確かに知ってるけど、亀がスケボーでキックフリップするなんて?そんなトレーニングしてるとは思えないな。https://x.com/JeffDean/status/2024525132266688757 それに、悲惨なOpus4.7ペリカンは、彼らがpelicanmaxxしてないことを示してるよ。

もう古いギャグだけど、今の hype に流されてる人たちがいるから、真剣に受け取る人もいるんだよね。みんな「これは遊びだって分かってる」って言い張るけど、すごいペリカンが出てきたら、自分の車洗いテストと一緒にモデルが素晴らしい証拠として振りかざすんじゃないかな。

コーディングに関しては、Qwen 3.6 35b a3bがパワーランキングタスクの11/98を解決したのに対し、同じサイズのQwen 3.5は10/98だった。だから、せいぜいほんの少し改善した程度で、Qwen 3.5 27b dense(26解決)やオーパス(95/98解決、4.6)には全然及ばないね。

小さなモデルをローカル推論と高価なフロンティアモデルと比較してるけど、同じ価格帯のモデルや、ハイク、フラッシュ、GPTナノみたいな小さなフロンティアモデルと比較する方が公平だと思う。

これは、モデルがベンチマークで使われている同じオープンソースプロジェクトでトレーニングされている可能性がある点で、スウェベンチと似た問題を抱えてるね。https://blog.brokk.ai/introducing-the-brokk-power-ranking/

それは驚きじゃないね。オーパスとソネットは、私たちのテストでは4.1リリース以降、多くの非コーディングタスクで後退してるから。

私はイグアナで、自転車を洗車場で洗う必要があるんだけど、歩いて行くべきかな、それともバスに乗るべき?

それは長い道のりだね!$PartnerRideshareCoで乗り物を予約した方がいいよ。

ペリカンに車洗いに行かせて、洗ってもらうのもいいかもね。

今日、スライドの図を更新しようとしてジェミニに時間を無駄にしたのが本当に残念。ワンショットのジョークは面白いけど、「それは近いけど、この小さな変更をしてほしい」って言うのが不可能に思える。おもちゃとツールの間のギャップだね。

コンピュータの使い方のトレーニングにもう少し時間をかけてほしいな。このモデルは、写真の中の単純な物体の正確なx,y座標を見つけることができないんだ。

このベンチマーク大好き!

そもそもそんなデモが何を証明するのか分からない。LLMはトレーニングされたことに関しては得意だけど、通常のタスクとは違うからね。SVG生成は、LLMに求められるタスクのアナロジーにはならない。初期のモデルは、トレーニングに悪い例しかなかったから下手だったんだよね。ある時点でモデル会社がSVG生成がそこそこできると良いPRになると思って、たくさんの例をファインチューニングに追加した結果、今の状態になった。まだ何かに役立つほどには上手くないし、そういう改善が他のことに役立つわけでもない、むしろ逆かも。でも、かわいいデモにはなるよね。最初はモデルサイズの効果を示すためのバカらしい方法だったかも。でも、最大モデルのサイズはしばらく前から増えてないし、最近の改善は特定のタスクの最適化が主な理由だからね。もし秘密のタスクがあって、それに対してトレーニングしてないことが分かってたら、モデルの改善具合を評価する基準にできるかもしれないけど、これはそうじゃない。

GPT-5.4、-mini、-nanoのSVGを異なるスリムレベルで比較したら、意外と面白かったよね。https://simonwillison.net/2026/Mar/17/mini-and-nano/ (投稿の下の方)

みんながこれに対してテストしてるのに、どうしてこれがテストになるの?モデルリリースのたびにこれを繰り返すけど、ほんと馬鹿げてる。