世界を動かす技術を、日本語で。

Kimi K2.6がコーディングチャレンジでClaude、GPT-5.5、Geminiに勝利しました

2026年5月3日原文(thinkpol.ca)

概要

  • Word Gem Puzzleで主要AIモデルが対決したAI Coding Contestの結果解説
  • 中国発のKimi K2.6が圧勝し、MiMo V2-Proが2位に続く展開
  • Western系モデルは上位に食い込めず、モデルごとの戦略や挙動の違いが明確化
  • スコアリングや盤面サイズでの戦略適合度が勝敗を分けた
  • オープンウェイトモデルの台頭と、AI性能競争の新局面を示唆

Word Gem Puzzle対決の概要

  • AI Coding Contest で主要言語モデルをリアルタイムプログラミング課題で競わせる取り組み
  • Day 12 の課題はWord Gem Puzzle、スライド式文字パズル
  • 10モデルがエントリー、実際に競技したのは9モデル
  • 中国Moonshot AI のオープンウェイトモデルKimi K2.6が22ポイントで優勝、MiMo V2-Proが2位
  • Western系(OpenAI, Anthropic, Google, xAIなど)のモデルはトップ2に入れず

Word Gem Puzzleのルールとスコアリング

  • 盤面は10×10〜30×30のグリッド、1つの空白と文字タイルで構成
  • 隣接タイルをスライドし、縦横一直線にできた英単語を申告
  • 斜めや逆向きは不可、単語は一度しか申告できない
  • 7文字未満の単語は減点、7文字以上で加点
  • 各モデルは盤面サイズごとに5ラウンド、1ラウンド10秒以内
  • 盤面にはクロスワード風に辞書単語がシードされ、残りはScrabble頻度で埋める

各モデルの戦略と結果

  • Kimi K2.6 :アグレッシブなスライド戦略、最高得点77。ポジティブな単語ができる動きを優先的に繰り返し、詰まるとアルファベット順で合法手を選択
  • MiMo V2-Pro :スライドせず初期盤面の7文字以上の単語を一括申告。盤面にシード単語が残れば高得点、なければ無得点
  • Claude Opus 4.7 :スライドせず、25×25までは善戦も30×30で失速
  • GPT-5.5 :1ラウンドあたり約120回スライド、無駄な動きを抑制し中盤・大盤で高得点
  • GLM 5.1 :最もスライド回数が多く、正の手がなくなると停滞
  • DeepSeek V4 :毎ラウンド不正データ送信、実質不参加
  • Muse Spark :短単語も全て申告し続け、累計−15,309点で全敗

モデルごとの特徴的な失敗例

  • Muse Spark :スコアリングルールを理解せず短単語乱発、圧倒的な負スコア
  • DeepSeek V4 :新規プロトコルへの対応力不足で常に不正出力
  • MiMo V2-Pro/Claude :スライド戦略を持たず、盤面の変化に適応できない

盤面サイズの影響と戦略適合度

  • 小盤面では静的スキャン型とスライダー型の差は小さい
  • 30×30など大盤面ではスライドしないモデルは得点機会を失う傾向
  • Kimiの「貪欲ループ」は欠点もあるが、盤面再構築が必要な状況で強みを発揮

総評とAI競争の新局面

  • オープンウェイトモデル(Kimi K2.6)の台頭、スコアもフロンティアに迫る
  • Western系大手モデルとの差は縮小、KimiはArtificial Analysis Intelligence Indexで54、GPT-5.5は60
  • 無料でローカル実行可能な高性能モデルの登場が競争環境を変化させている
  • 一つの課題だけで総合力は測れないが、現場での実装力や適応力の差が顕著

参考

  • XiaomiによるMiMo V2.5 Proのウェイト公開予定:公式X投稿
  • 解説・主催:Rohana Rezel(バンクーバー在住の技術者・研究者・コミュニティリーダー)

Hackerたちの意見

一つのチャレンジで、解決策のパフォーマンスがどうだったかで測った結果だね。Kimi K2.6は確かにフロンティアサイズのモデルだから、閉じたフロンティアモデルと並んでいるのはあまり驚きじゃない。でも、オープンであるのはいいことだよね。私みたいに一つのコンシューマGPUしか持ってない人にはあまり関係ないけど。

でも、これが未来なんだよね。H200sで動くオープンウェイトモデルは、製品や実際のインフラを構築するためのチャンスがずっと広がる。自宅の小さなRTX用にこれを常に抽出できるけど、コンシューマハードウェア向けに形作られたモデルは、広く採用されることも、フロンティアラボと競争することもないだろう。これは競争できるものなんだ。そして、推論を実行するための新しい世代のオープンクラウドインフラが必要になるし、インスパイアもされる。「ボタンを押してデプロイ」や「ボタンを押して微調整」する製品から始まって、APIにロックされていないオープンウェイトだけが達成できる、もっと高度な製品へと進んでいく。今はオープンウェイトのNano Banana ProやGPT Image 2、Seedance 2.0相当が必要だね。データセンター向けのオープンウェイトに焦点を当てるべきだと思う。

これは絶対に重要だよ。最初は気づかないかもしれないけど、私のお気に入りのフロンティアモデルがかなり弱体化して、昔はできていたことができなくなっているのを見つけている。私たちは、ますます依存するオープンウェイトモデルを持つ必要があるんだ。

オープンであるのはいいことだよね、私みたいに一つのコンシューマGPUしか持ってない人にはあまり関係ないけど。もちろん、これは重要だよ。だって、AnthropicやOpenAIのプランよりもコーディングプランがずっと安くなるから。個人用にはGLM 5.1、Kimi K2.6、MiniMax M2.7、Xiaomi MiMo V2.5 Proのコーディングプランを持っていて、コスパがすごくいいんだ。

オープンでいるのはいいことだよね。特に、僕みたいにシングルの消費者用GPUしか持ってない人にはあまり関係ないけど。オープンソースの価値は、自分でローカルで動かすことじゃなくて、誰でも動かせるってことなんだよね。もし大きなオープンソースモデルを動かすためのハードウェアを買えなくても、誰かがそれを買って、クローズドソースモデルの半額で提供しても利益が出るはず。今それが実現してないのは、現在の主要なトークン提供者が推論コストを補助してるからなんだ。彼らが劣化を始めた瞬間、代替品の市場が成り立つようになるよ。オープンソースモデルがない限り、代替品は決して成立しない。たとえ彼らが開発者のコストの80%だけを請求したいと思っても、遅れを取ってないオープンソースモデルの存在が彼らにプレッシャーをかけるんだ。彼らには防御策がないよ。

ランキングには驚いたけど、テスト内容を読んで納得した。コーディングにはあまり関係ないね。今の全テストのランキングはもっと理にかなっている(まあ、Geminiの成績を除いてだけど)。 https://aicc.rayonnant.ai

でも、ランキングの内訳を見ると、Kimi K2.6は最近の5つのチャレンジにしか参加してなくて(それ以前はClaudeが圧倒的だった)、その5つだけをカウントすると1位になるんだよね。

金メダルのランキングは、全モデルがすべてのテストに参加している場合にのみ意味があるよね。DNP = 参加しなかった。これに関しては、君はClaudeよりも多くて質の良いメダルを持ってるね。

うん、君が提供したリンクはKimiの優位性を基本的に確認してるね。

客観的なスコアのテストにシフトしているのが嬉しい。私たちは https://gertlabs.com/rankings でこれを大規模にやっていて、著者がユニークなサンプルを実行しているようだけど、Kimi K2.6がどれだけ良いパフォーマンスを出したかを見るのは驚きじゃない。私たちのテストによると、特にコーディングでは、KimiはMiMo V2.5 Proのトップオープンウェイトモデルと統計的に不確実な範囲内で、DeepSeek V4 Proよりもツールを使った時のパフォーマンスがずっと良い。GPT 5.5は快適にリードしているけど、KimiはOpus 4.6と同等かそれ以上だよ。Kimi 2.6の問題は、私たちがテストした中で遅いモデルの一つだってこと。

私の経験では、ベンチマークはあまり意味がないと思う。パフォーマンスは言語やタスク、使うプロンプトや期待される結果によっても変わるからね。自分の内部テストでは、GPT 5.5とOpus 4.7のどちらが優れているか判断するのが本当に難しかった。スタイルが違うから、結局は好みの問題だよね。勝者を決めたと思ったモデルについて、考え直して気が変わったこともあったし。最終的には、ちょっとOpus 4.7の方が好きかな。

あなたのテストと結果はオープンソースなの?

Hacker Newsで議論の続きを見る