概要
- ペリカン自転車ベンチマーク はジョークとして作成
- Qwen3.6-35B-A3B と Claude Opus 4.7 の比較
- SVG生成タスクで Qwen3.6 が優勢
- モデルの 実用性とベンチマーク結果 の関係性への疑問
- Qwen のローカル利用が特定用途では有利
ペリカン自転車ベンチマーク:Qwen3.6 vs Claude Opus 4.7
- ペリカンが自転車に乗る というベンチマークは、モデル比較の ジョーク的指標
- 今回は AlibabaのQwen3.6-35B-A3B と AnthropicのClaude Opus 4.7 で生成結果を比較
- Qwen3.6は Unslothによる20.9GBの量子化モデル をMacBook Pro M5でLM Studio経由で実行
- Claude Opus 4.7は Anthropicの最新モデル としてクラウドで利用
- Qwen3.6のSVG生成結果が より正確 で、Opusは 自転車フレームを誤る
- Opusに thinking_level: max を指定しても改善せず
ベンチマークの信頼性と追加テスト
- 一部で「 ラボがこのベンチマーク向けに訓練している」という疑念があるが、筆者は否定的
- 念のため「 フラミンゴが一輪車に乗るSVG」生成で追加テストを実施
- Qwen3.6が サングラス付きフラミンゴ という遊び心のあるSVGコメントを生成
- このタスクでも Qwen3.6が優勢
ベンチマークの意義とモデルの実用性
- ペリカンベンチマーク は本来「モデル比較の不条理さ」を皮肉るためのジョーク
- しかし、 ペリカンの描画品質 と モデルの実用性 に一定の相関が見られた時期も存在
- 2024年10月時点のモデルはイラストが酷かったが、最近は Gemini 3.1 Pro なども実用的なレベルに到達
- ただし今回の比較で、 その相関が崩れた ことを確認
- Qwen3.6の量子化モデル (21GB)が Anthropicの最新商用モデル より実用的とは考えにくい
- しかし「ペリカンが自転車に乗るSVG」が必要なら、 Qwen3.6-35B-A3Bのローカル実行 が現時点で最適