作曲家：強化学習を用いた高速フロンティアモデルの構築

2025年10月30日原文(cursor.com)

概要

Composerは高速かつ高精度なソフトウェアエンジニアリング向けエージェントモデル
実際の大規模コードベース課題で訓練、既存モデルの4倍の生成速度を実現
Mixture-of-Experts構造、長文コンテキストと多様なツール連携に対応
RLによる専門性強化と効率的なツール活用
Cursor Benchで現場開発者の実用性を評価

Composer: ソフトウェアエンジニアリング向け高速エージェントモデル

Composer は、ソフトウェアエンジニアリング作業のために設計された 新しいエージェントモデル
ベンチマークにて、同等モデル比で 4倍の生成速度 と最先端のコーディング性能
実際の 大規模コードベース課題 を用いた訓練プロセス
検索・編集ツール を統合し、難度の高い課題解決を効率的に実施
Cursor Tab開発経験から、 インタラクティブな利用体験 を重視

開発動機と進化

Cursor Tab開発時に、 開発者が求めるのは賢くかつ高速なモデル であることを認識
試作エージェントモデル「Cheetah」で 速度の重要性 を検証
Composerは、その知見を反映した より賢く高速な後継モデル

技術的特徴

Mixture-of-Experts（MoE）構造 を採用、長文コンテキスト生成・理解に最適化
強化学習（RL）により、多様な 開発環境への適応性 を獲得
各訓練ステップで、 課題記述への最適応答 （コード編集・計画・説明）を生成
ファイル編集・検索・ターミナル操作 など多様なツールにアクセス可能

評価とベンチマーク

Cursor Bench ：実際のエージェントリクエストと最適解を用いた独自ベンチマーク
モデルの 正確性だけでなく、既存コードベースの抽象化や開発慣習への準拠 も評価
Cursor社内エンジニア・研究者の実際のリクエストを反映

強化学習による最適化

ツール利用の効率化・並列化 を重視した報酬設計
不要な応答や根拠のない主張の抑制 を学習
複雑な検索・リンター修正・ユニットテストの自動実行 など有用な行動を自発的に習得

インフラとシステム

PyTorchとRay を活用した非同期強化学習用カスタムインフラ
MXFP8 MoEカーネル と専門家並列・ハイブリッドシャーディングによる低精度大規模学習
NVIDIA GPU数千台規模 での効率的な訓練を実現
MXFP8 により、後処理なしで高速推論が可能

ツール連携とサンドボックス

Cursor Agent harness 内の全ツール呼び出しに対応
コード編集・セマンティック検索・grep・ターミナル操作 など多機能
数十万同時サンドボックス環境 をクラウドで実現
Background Agents 用インフラを拡張し、RL環境と本番環境を統合

Composerの社内利用と展望

Cursorは自社開発ツールを 積極的に現場利用
Composer開発の動機は「 自分たちが使いたいエージェント」の実現
社内エンジニアの 日常開発での活用実績
今後も 価値ある開発支援ツール としての進化を期待

ベンチマーク補足情報

内部ベンチマークで 各モデルクラスの最良モデル を比較
「Fast Frontier」には Haiku 4.5, Gemini Flash 2.5 など高速推論モデル
「Best Open」には Qwen Coder, GLM 4.6 など最新オープンウェイトモデル
「Frontier 7/2025」は 2025年7月時点の最良モデル
「Best Frontier」には GPT-5, Sonnet 4.5 （Composerより高性能）
トークン毎秒は Anthropic最新トークナイザー基準で標準化

Hackerたちの意見

Cursorが大好き！CopilotやClaudeとかも試したけど、結局Cursorに戻っちゃうんだよね。仕事がしたいだけなのに、Cursorのタブ補完はめっちゃ正確で、特にリファクタリングの作業には最適なんだ。

└

1ヶ月前にVS Code + Copilotに戻ろうとしたけど、4日でギブアップした。ひどすぎたんだよね。すごく遅いし、提案もイマイチだったし、ほとんど何も提案してくれなかった。Cursorと比べると、Cursorはサクサク動いて、提案も役に立つことが多い。Cursorのタブ補完で一番イライラするのは、速すぎて変なことをしてるときに無駄な提案がどんどん入ってくること。でも、これにはスヌーズ機能があるから助かる。

新しいモデルが出るのは楽しみだけど、あまりにも曖昧なところが多いとちょっと懐疑的になっちゃう。具体的にどの「フロンティアモデル」なのかも書いてないし、数字もないチャート（時間軸とか、あるチャートでは完全にゼロ）も気になる。

└

モデルに関する参考情報があるよ。トレーニングについては報告が難しいけど、ざっくり言うと、RLはスケールするってことがわかった。

ここではCursorに反対する人が多いけど、人気のある代替品（Copilot、Claude Code、Codex、Gemini CLI、Cline）を全部試してみた結果、Cursorの全体的な体験は本当に比べ物にならない。速さが大きな要因だし、信頼性も抜群。実際に使ってみて、他のツールがプロジェクトをめちゃくちゃにする中で、これだけはすぐに使いたくなる。大きすぎる変更を求めてないのに勝手にやられたり、常に文法エラーやリクエストエラーが出たりするからね。Cursorはプロトタイプじゃなくて、ちゃんとした製品としての真剣さを感じる唯一のコーディングエージェントだよ。彼らのスタック改善への努力は確実に実を結んでる。

└

あなたが言ってる理由でCursorをやめたよ：信頼性。AIチャットでのリクエストが30秒以上もハングすることが何度もあったから。Claude Codeを試してみることにしたんだけど（CursorでClaudeを使ってたから必要ないと思ってた）、その速さには驚いたし、信頼性も100%だった。EDIT: 今日のリリースを受けて、試してみることにした。Composer1モデルは速いけど、新しいエージェントを始めた瞬間にこれが出た：> 接続に失敗しました。問題が続く場合は、インターネット接続やVPNを確認してください。

└

Claudeを試してみたけど、やっぱりCursorの方が好きなの？

└

うん、ほんとにシームレスに動くよ。たまにフリーズすることもあるけど、彼らのUIは簡単にリトライしたり、会話の早い段階に戻したりできるから便利だよ。オートコンプリートもいい感じで、リファクタリングのときに小さなことをタブで進めるのが結構満足感あるんだ。

└

人気の代替品は全部試してみたけど（Copilot、Claude Code、Codex、Gemini CLI、Cline）、Zedを試してないのは気になるね！

└

私も全部試してみたけど、Cursorが一番だと思ってる。とはいえ、今の状況は、一般的に何を作りたいか分かってる人たちと、ほとんどのエンジニアリングをツールに任せたい人たちで分かれてる感じがする。どれがいいかは特に意見ないけど、私は前者の方にいる。そういう意味では、Cursorが圧倒的にいいツールだと思う。

└

カーソルを1日だけ使ったんだけど（1年分のサブスクリプションを払った）、その日のうちにクロードコードを見つけて以来、カーソルは開いてないよ。ちなみに、後でコーデックスを使い始めて、今ではコーデックスが日常的に使ってるもので、クロードコードはコーデックスが失敗したときのため（そんなに失敗しないけど）に使ってる。カーソルは全然使わなくなった。彼らは最初に出たけど、私の意見ではコーデックスがカーソルを1000個の小さな破片に吹き飛ばしたよ。本当に、すごく良いんだ。

もしかしたら少数派かもしれないけど、Sonnet 4.5の品質は私が許容できる限界に近いかな。生成速度が問題なわけじゃなくて、正しい出力を得るために格闘するのが大変なんだ。--- それと、もしかしたら私がまた誤解してるかもしれないけど、ここで人々がCursorをClaude CodeやCodexと比較してるのは、この記事全体がCursorを使ってるだけじゃないの？

Hacker Newsで議論の続きを見る

ハクソク