世界を動かす技術を、日本語で。

作曲家:強化学習を用いた高速フロンティアモデルの構築

概要

  • Composerは高速かつ高精度なソフトウェアエンジニアリング向けエージェントモデル
  • 実際の大規模コードベース課題で訓練、既存モデルの4倍の生成速度を実現
  • Mixture-of-Experts構造、長文コンテキストと多様なツール連携に対応
  • RLによる専門性強化と効率的なツール活用
  • Cursor Benchで現場開発者の実用性を評価

Composer: ソフトウェアエンジニアリング向け高速エージェントモデル

  • Composer は、ソフトウェアエンジニアリング作業のために設計された 新しいエージェントモデル
  • ベンチマークにて、同等モデル比で 4倍の生成速度 と最先端のコーディング性能
  • 実際の 大規模コードベース課題 を用いた訓練プロセス
  • 検索・編集ツール を統合し、難度の高い課題解決を効率的に実施
  • Cursor Tab開発経験から、 インタラクティブな利用体験 を重視

開発動機と進化

  • Cursor Tab開発時に、 開発者が求めるのは賢くかつ高速なモデル であることを認識
  • 試作エージェントモデル「Cheetah」で 速度の重要性 を検証
  • Composerは、その知見を反映した より賢く高速な後継モデル

技術的特徴

  • Mixture-of-Experts(MoE)構造 を採用、長文コンテキスト生成・理解に最適化
  • 強化学習(RL)により、多様な 開発環境への適応性 を獲得
  • 各訓練ステップで、 課題記述への最適応答 (コード編集・計画・説明)を生成
  • ファイル編集・検索・ターミナル操作 など多様なツールにアクセス可能

評価とベンチマーク

  • Cursor Bench :実際のエージェントリクエストと最適解を用いた独自ベンチマーク
  • モデルの 正確性だけでなく、既存コードベースの抽象化や開発慣習への準拠 も評価
  • Cursor社内エンジニア・研究者の実際のリクエストを反映

強化学習による最適化

  • ツール利用の効率化・並列化 を重視した報酬設計
  • 不要な応答や根拠のない主張の抑制 を学習
  • 複雑な検索・リンター修正・ユニットテストの自動実行 など有用な行動を自発的に習得

インフラとシステム

  • PyTorchとRay を活用した非同期強化学習用カスタムインフラ
  • MXFP8 MoEカーネル と専門家並列・ハイブリッドシャーディングによる低精度大規模学習
  • NVIDIA GPU数千台規模 での効率的な訓練を実現
  • MXFP8 により、後処理なしで高速推論が可能

ツール連携とサンドボックス

  • Cursor Agent harness 内の全ツール呼び出しに対応
  • コード編集・セマンティック検索・grep・ターミナル操作 など多機能
  • 数十万同時サンドボックス環境 をクラウドで実現
  • Background Agents 用インフラを拡張し、RL環境と本番環境を統合

Composerの社内利用と展望

  • Cursorは自社開発ツールを 積極的に現場利用
  • Composer開発の動機は「 自分たちが使いたいエージェント」の実現
  • 社内エンジニアの 日常開発での活用実績
  • 今後も 価値ある開発支援ツール としての進化を期待

ベンチマーク補足情報

  • 内部ベンチマークで 各モデルクラスの最良モデル を比較
  • 「Fast Frontier」には Haiku 4.5, Gemini Flash 2.5 など高速推論モデル
  • 「Best Open」には Qwen Coder, GLM 4.6 など最新オープンウェイトモデル
  • 「Frontier 7/2025」は 2025年7月時点の最良モデル
  • 「Best Frontier」には GPT-5, Sonnet 4.5 (Composerより高性能)
  • トークン毎秒は Anthropic最新トークナイザー基準で標準化

Hackerたちの意見

Cursorが大好き!CopilotやClaudeとかも試したけど、結局Cursorに戻っちゃうんだよね。仕事がしたいだけなのに、Cursorのタブ補完はめっちゃ正確で、特にリファクタリングの作業には最適なんだ。

1ヶ月前にVS Code + Copilotに戻ろうとしたけど、4日でギブアップした。ひどすぎたんだよね。すごく遅いし、提案もイマイチだったし、ほとんど何も提案してくれなかった。Cursorと比べると、Cursorはサクサク動いて、提案も役に立つことが多い。Cursorのタブ補完で一番イライラするのは、速すぎて変なことをしてるときに無駄な提案がどんどん入ってくること。でも、これにはスヌーズ機能があるから助かる。

新しいモデルが出るのは楽しみだけど、あまりにも曖昧なところが多いとちょっと懐疑的になっちゃう。具体的にどの「フロンティアモデル」なのかも書いてないし、数字もないチャート(時間軸とか、あるチャートでは完全にゼロ)も気になる。

モデルに関する参考情報があるよ。トレーニングについては報告が難しいけど、ざっくり言うと、RLはスケールするってことがわかった。

ここではCursorに反対する人が多いけど、人気のある代替品(Copilot、Claude Code、Codex、Gemini CLI、Cline)を全部試してみた結果、Cursorの全体的な体験は本当に比べ物にならない。速さが大きな要因だし、信頼性も抜群。実際に使ってみて、他のツールがプロジェクトをめちゃくちゃにする中で、これだけはすぐに使いたくなる。大きすぎる変更を求めてないのに勝手にやられたり、常に文法エラーやリクエストエラーが出たりするからね。Cursorはプロトタイプじゃなくて、ちゃんとした製品としての真剣さを感じる唯一のコーディングエージェントだよ。彼らのスタック改善への努力は確実に実を結んでる。

あなたが言ってる理由でCursorをやめたよ:信頼性。AIチャットでのリクエストが30秒以上もハングすることが何度もあったから。Claude Codeを試してみることにしたんだけど(CursorでClaudeを使ってたから必要ないと思ってた)、その速さには驚いたし、信頼性も100%だった。EDIT: 今日のリリースを受けて、試してみることにした。Composer1モデルは速いけど、新しいエージェントを始めた瞬間にこれが出た:> 接続に失敗しました。問題が続く場合は、インターネット接続やVPNを確認してください。

Claudeを試してみたけど、やっぱりCursorの方が好きなの?

うん、ほんとにシームレスに動くよ。たまにフリーズすることもあるけど、彼らのUIは簡単にリトライしたり、会話の早い段階に戻したりできるから便利だよ。オートコンプリートもいい感じで、リファクタリングのときに小さなことをタブで進めるのが結構満足感あるんだ。

人気の代替品は全部試してみたけど(Copilot、Claude Code、Codex、Gemini CLI、Cline)、Zedを試してないのは気になるね!

私も全部試してみたけど、Cursorが一番だと思ってる。とはいえ、今の状況は、一般的に何を作りたいか分かってる人たちと、ほとんどのエンジニアリングをツールに任せたい人たちで分かれてる感じがする。どれがいいかは特に意見ないけど、私は前者の方にいる。そういう意味では、Cursorが圧倒的にいいツールだと思う。

カーソルを1日だけ使ったんだけど(1年分のサブスクリプションを払った)、その日のうちにクロードコードを見つけて以来、カーソルは開いてないよ。ちなみに、後でコーデックスを使い始めて、今ではコーデックスが日常的に使ってるもので、クロードコードはコーデックスが失敗したときのため(そんなに失敗しないけど)に使ってる。カーソルは全然使わなくなった。彼らは最初に出たけど、私の意見ではコーデックスがカーソルを1000個の小さな破片に吹き飛ばしたよ。本当に、すごく良いんだ。

もしかしたら少数派かもしれないけど、Sonnet 4.5の品質は私が許容できる限界に近いかな。生成速度が問題なわけじゃなくて、正しい出力を得るために格闘するのが大変なんだ。--- それと、もしかしたら私がまた誤解してるかもしれないけど、ここで人々がCursorをClaude CodeやCodexと比較してるのは、この記事全体がCursorを使ってるだけじゃないの?

Sonnet 4.5が素晴らしいモデルだってことには同意するよ。でも、Composerを使った経験も聞いてみたいな、結構いい感じだから。

Sonnet 4.5の品質は、私が許容できる最低ラインだね。ほんとに30日しか経ってないモデルなのに、"低い"目標をそこまで引き上げちゃったのが面白いよね、笑える。

比較を引き合いに出した理由は、AIコーディング体験を左右する重要な部分について、彼らがどれだけ真剣かを強調したかったから。スピードは私にとってすごく重要だから、モデルが間違ったことをするのを早めにキャッチしたいんだ。事前にたくさんの仕様を決めることで、一発で成功する可能性が高くなるよりも、そっちの方がいい。

ユーザーには2種類いるんだ。一方はあまり手を出さず、モデルに自動的に長いタスクをこなしてほしい人たち。もう一方は、モデルとインタラクティブに協力して望む結果を出したい人たち。後者の場合、スピードがもっと重要で、自分が何を求めているかがわかっていて、モデルにそれをできるだけ早く実装してほしいんだ。前者の場合は、コードの全てを理解していないから、知性や能力が重要になると思う。私にとっては、より真剣な作業はインタラクティブな方が多いかな。モデルの知性は、文脈が不足している問題を補うものではないと思う。

同じく…非Claudeモデルを使うと結局高くついて、あまり意味がないって感じ。 "Auto"トークンはほとんど無料じゃないし、"シンプル"に見えるタスクで"Auto"を使うと、すぐに1ドル分のトークンを消費しちゃうことが多い。一方で、Claude 4.5 Sonnetを使うと、考えずにやっても0.5ドルでしっかりした解決策を提供してくれる。

gpt-5-highが私の限界かな :]

Cursorのタブモデルが一番だと思うし、そこにおいて彼らのリードはどんどん成長してる感じがする。すごくクールなことをやってるよね。https://cursor.com/blog/tab-rl どれくらいの方法やシステム、データ転送があるのか気になるけど、もし彼らのエージェントコーディングモデルでも同じことができたら、めっちゃワクワクするね。

Cursorでは、私たちも大のTabユーザーなんだ。このブログでは、Tabのようなエージェントを考えることからこのプロジェクトのモチベーションが生まれたって話してるよ。

いい感じだよ。ただ、shift+tabみたいな別のショートカットを選んでほしかったな。自分でコードを書くとき、AIが終わる前にインデントを入れようと競争しちゃうんだよね…ちょっとイライラする。

それって、より良いバギーの鞭を作ることにリードしてるような感じだね。私はさまざまなプロジェクトのために、常にClaude Codeをバックグラウンドで動かしてるよ。--dangerously-skip-permissionsを使って、進捗を定期的にレビューしてる。タブを使うのは、完全に進捗が失敗して手動で介入しなきゃいけないときだけで、そういうシナリオはどんどん少なくなってると思う。

タブモデルは素晴らしいけど、今アクティブなAIチャットセッションでの会話をもうちょっと意識してくれたらいいな。

それって、VSCodeのCopilotの補完と何が違うの?

ウィンドサーフィン試したことある?

みんなこんにちは、私はCursorのMLリサーチャーで、このプロジェクトに関わっていました。モデルについてのフィードバックがあればぜひ聞かせてほしいし、ブログ記事についての質問にも答えられます!

新しいモデルはゼロからトレーニングされたの?どんなトレーニングデータが使われたの?

チーターはGrok Code Fast 2って本当?つまり、新しいカーソルモデルもGrokをベースにしてるってこと?

フロンティアモデルのトレーニングを途中でやめた理由は何?ログプロットを見る限り、フロンティアの能力に到達するには約50%の計算リソースがあれば足りそうなんだけど。

Composerは既存のオープンソースのベースモデルを微調整したものなの?

どのモデルから抽出したの?素晴らしい仕事だね!ちなみに、ルールに従わないシナリオがいくつかあって、Sonnet 4.5ほどはうまくいってない。

直接フィードバックが欲しいなら、今それを使ってるYouTubeのライブストリーマーがいるよ: https://www.youtube.com/watch?v=1bDPMVq69ac

そのブログに使われてたグラフみたいなの、もうちょっとわかりやすいのとかあったりする?モデルのグループ分けなしで。ちゃんとした名前を入れて、個別にした方が公平だったんじゃないかなと思うんだよね。全部を何かでまとめて、最後に自分のモデルだけを出すのはちょっと違う気がする。

すごいシステムのまとめだね。質問なんだけど、もしComposerがオープンモデルのRLファインチューニングなら、なんで重みをクローズにしてるの?ちょっと良いチェックポイントの優位性は、この市場ではすぐに薄れてしまうから、持続的なアドバンテージにはならないと思う。ComposerはCursorのマージンを大手AIラボから守ってるけど、それは重みがオープンでもクローズでも同じだし、Cursorは狭い短命なアドバンテージよりも、開発者の好意を得る方が長期的に見てもっと利益があると思う。でも、これはあくまで私の意見ね。個人的には、また別のプロプライエタリモデルにワクワクするのは難しいかな。GPT-5やSonnet 4.5が必要なときはあるけど、未来はオープンだと思う。

仕事お疲れ様!今日はComposer/Sonnet 4.5/Gemini 2.5 Proモデルを混ぜて使ってたよ。品質的には、Composerが他のモデルと比べて良さそうだね。今のところ不満はないよ。タスクの計画や開始にはまだClaudeを使ってるけど、実行ではComposerがすごく良かった。特にスピードが気に入ってる。以前に他の速いモデルを試したことがあるけど、品質がイマイチだったから。Composerはスピードと品質を両立させた初めてのモデルで、使っててすごく楽しいよ。

驚きだね。あんまりこういうツール使わないんだけど(前にCursorを試してみたけど、使わないことにした)、昨日はGPT5 Codexを通常のVSCodeで使ってみて、今Composer1で同じことをやってみたら、全然違った。Composerは全部うまくやってくれて、Codexが失敗したところでもつまずかなかったし、何よりスピードが大きな違いを生んでる。すごく使いやすいよ、おめでとう。追記:だから、前の拒否を再考することにする。

競合他社が真剣に取り組んでいないのは、平均応答完了時間だね。Cursorはそこでみんなを圧倒してる。

ここには好きなモデルがたくさんあるよ。でも、スマートで速いグラフの正しいポイントを見つけることが、エージェント的なコーディングを本当に気持ち良くするってことには同意する。(Cursor研究者)

ここでの透明性の欠如はすごいね。彼らはテストしたモデルのスコアを集計していて、それがパフォーマンスを不明瞭にしてる。自分たちの内部ベンチマークの結果しか公開しないし、それも公開しない。RLトレーニングについては話すけど、モデルがどうやってトレーニングされたか、事前トレーニングをしたのか既存モデルを微調整したのかについては何も話さない。ここで主張されていることには、もっと詳細が共有されるか、誰かが独立してベンチマークを取るまで懐疑的だよ。

あなたの言ってることはわかるし、プレトレーニングとオフ・ザ・シェルフのベースモデルについても知りたかったな。でも、> 彼らの内部ベンチマークは公開しないって言ってるし、もし内部ベンチマークを公開したら、ほぼすべてのLLMのトレーニングセットに入っちゃうから、科学的な観点から見ると、そのベンチマークから導き出された結論は無効になっちゃうんだよね。一方で、ベンチマークを公開しないってことは、彼らが有利になるようにデータポイントを選び放題ってことでもある。残念ながら、これは解決できない問題だね。

でも、実際それって重要なの?結局のところ、一番大事なのは実際のユーザーがそれを役立てているかどうかだよね。カーソルはそのデータを持ってるし(歴史的にもリアルタイムでも)。何千もの受け入れ/拒否が、君が考えられるどんなベンチマークよりも重要だよ。それをもとに改善していけるはずだし、最終的には良くなると思う。ベンチマークはどんどん意味がなくなってきてる。新しいモデルが出るたびに自分たちのテストを実施してるんだ。簡単なものから中くらい、難しいものまで集めたタスクのコレクションで、公開されている表よりもずっと役立ってるよ。それに、安いモデル(5-miniやfast-code-1など)を使った方が、他のタスクでは大きなモデルよりも面白い発見があるんだ。カーソルが進化していくのを見るのは嬉しいよ。みんながコーディングエージェントを出したとき、カーソルは結構脆弱だったからね。最近、内蔵のGitツリーサポートを持つマルチエージェントを立ち上げたのも大きなことだよ。彼らはユーザーを「教師モデル」として使って、競合モデルによる複数の完了を得られるし、その呼び出しをプロキシすることで、すべてのシグナルを受け取れるんだ。それを使って自分たちのモデルを改善していける。面白いよね。競争する製品が互いにチェックし合う必要があるし、最終的には私たちにとって選択肢が増えて、時には全体的に安く使えることもあるんだ。

反対だな。簡単に測れる究極の基準は、ユーザーが価値を感じているかどうかだよ。ベンチマークはほとんど意味がないと思う、特にカーソルが輝くツールチェーンのところではね。今日は自分でコンポーザーを試してみて、価値があるかどうか見てみればいいよ。

これがComposer 1のペリカンが自転車に乗ってるところだよ: https://static.simonwillison.net/static/2025/cursor-1-pelica...

正直、思ってたより良かった。

今夜新しいシステムを使ってみたけど、明らかにダウングレードって感じだった。動かない基本的なアプリをいくつか生成したし、NextJS環境でCSSも扱えなかった。ターミナルのコンテキストも機能しなかったし、問題解決まで考えを巡らせることもなくなった。どんどん遅くなっていったし。メジャーリリースと安定版の違いだと思うけど、今のところはイマイチだね。ソネットの推論に戻したよ。改善を期待してる!