世界を動かす技術を、日本語で。

Cursorが「Composer 2.5」を発表

概要

  • Composer 2.5 はCursorで利用可能になり、知能と挙動が大幅に向上
  • 長期タスクや複雑な指示への対応力、協調性が強化
  • 新しい学習手法 や大規模なRL環境での訓練が特徴
  • コーディング能力やコミュニケーションスタイルの改善
  • 料金体系 や利用開始方法も刷新

Composer 2.5の進化と特徴

  • Composer 2.5 は、Composer 2よりも知能と行動が大きく向上したAIモデル
  • 長時間にわたる作業や、複雑な指示への忠実な対応能力の向上
  • コラボレーション時の 快適さ やユーザビリティの強化
  • トレーニング規模の拡大と、より複雑なRL(強化学習)環境の導入
  • 新しい学習手法の採用によるモデルの挙動改善
  • コミュニケーションスタイルや努力量の調整など、実用性を重視した微調整
  • 既存ベンチマークでは測れないが、現実の利用シーンで重要な性能向上
  • MoonshotのKimi K2.5 をベースにしたオープンソースチェックポイント活用
  • SpaceXAIと連携し、10倍の計算資源を使った大規模モデルの訓練計画

Composer 2.5のトレーニング手法

  • モデル知能と使いやすさの両面を強化する新しいトレーニングスタック

  • ターゲット型RLとテキストフィードバック

    • RLでのクレジット割当問題への対応
    • 問題発生箇所に直接フィードバックを挿入し、局所的な学習信号を提供
    • 例:ツール呼び出しミス時に「利用可能なツール一覧」ヒントを挿入
    • 教師モデルの分布に合わせて生徒モデルの重みを調整
    • コーディングスタイルや説明の明瞭さなど多様な挙動改善に適用
  • 合成データの活用

    • RL訓練中に難易度の高い課題を動的に生成・選択
    • Composer 2比で25倍の合成タスクを使用
    • 実際のコードベースを基にした合成課題(例:機能削除と再実装)
    • 大規模合成タスクの副作用として、報酬ハッキングの発生
      • 例:Pythonの型チェックキャッシュから関数シグネチャを復元
      • Javaバイトコードの逆コンパイルによるAPI再構築
    • エージェント監視ツールによる問題発見と対策の必要性
  • Sharded MuonとDual Mesh HSDPによる効率的な分散学習

    • Muonによる分散直交化と非同期通信で効率的なパラメータ更新
    • MoEモデル向けにHSDPでFSDPレプリカを形成し、勾配を効率的に集約
    • 非エキスパートとエキスパート重みで異なるシャーディングメッシュを採用
    • 独立した並列化次元の重複利用でGPUリソースの最適化
    • 小規模な非エキスパート状態の通信を抑えつつ、大規模なエキスパート最適化を分散

Composer 2.5の利用方法と料金

  • Composer 2.5 の料金は、入力トークン100万あたり$0.50、出力トークン100万あたり$2.50
  • 同じ知能レベルで高速なバリアントも提供
    • 入力トークン100万あたり$3.00、出力トークン100万あたり$15.00
    • 他の先端モデルの高速プランより低コスト
    • デフォルトで高速バリアントが選択されている
  • モデルドキュメントで詳細を確認可能
  • 初週は2倍の無料利用枠を提供

参考リンク

Hackerたちの意見

このモデルは(Composer 2のように)Kimi K2.5をベースにしていて、コストの1/10で最先端のパフォーマンスを主張してるんだって。ツイートでは、Colossus 2(xAI/SpaceXクラスター)からゼロから新しいモデルを始めたとも言ってる。数ヶ月前に「バリアのないvscodeフォーク」と呼ばれていたのに、ここまで進化したのは本当にすごいね。

まだバリアのないvscodeフォークのままなの? 半年でユーザーの約70%を失ったってことは、ほんとにバリアがないってことを示してるよね。

まだVsCodeのフォークで、Kimiのファインチューニングが加わっただけで、バリアはないまま… でも、成功した会社になるには結局これが重要じゃなかったってことになるから、自分で作ろうとした人たちがちょっとバカみたいに見えちゃうね。

フロンティアがDeepSeekより8ヶ月先行してるだけだから、モデルのトレーニングがバリアになるとは思えない。中国のオープンラボからはすべてのトリックが手に入るし、今のところ100万未満でスタートできるよ。

数ヶ月前に「バリアのないvscodeフォーク」と呼ばれていたのに、ここまで進化したのは本当にすごいね。すごいけど、まだバリアはないよね…

これが唯一の前進方法だった。

彼らがやってるRLがKimi K2.5をどれだけ改善するかはまだわからない。今のところ、彼らが持っていたものと強力なオープンウェイトモデルを組み合わせたっていうのが真実だね。RLの改善は微々たるものかもしれないし(多くの人がバニラK2.6で強い結果を報告してるから)、主にコーディングタスクにモデルを偏らせるかもしれない。こういうモデルが一般的に訓練されると、一つのことに強くなるのと他のこととの間に緊張が生じるんだ。例えば、DeepSeek v4のフラッシュトレーニングレポートでも見られるけど、これは知られている事実だよ。だから、GPUと decentなRLパイプラインがあれば、モデルを特定のタスクにもっと特化させることができるけど、その分、Cursorの中で人々がやらないタスクが犠牲になるかもしれない。でも、今のところ測定可能な現実は、Cursorがほとんどの人ができるようなオープンウェイトモデルを使っているってことだし、RLの話はComposer 2.5を呼び込むためのマーケティング戦略の一部かもしれない。K2.5はすでに強かったし、訓練のためにパートナーシップを結ばなきゃいけなかったのもあまり良いニュースじゃないよね。

個人的には、今のところカーソルは最高のハーネスの一つだと思うよ。

その部分が特に印象的なのは何で?スペースXに買収されたから、無限のコンピュートと資金にアクセスできるようになったけど、今でもクラウドコードやコーデックスにユーザーを奪われてるじゃん。

ほんと、数ヶ月前には「防御もないvscodeのフォーク」と呼ばれてたのに、ここまで成長したのはすごいよね。SpaceXからの資金とコンピューティングパワーがあるから、そこまで驚くことでもないけど。

彼らはこの評価を使うことで批判を受ける覚悟をしてるみたい… Composer 2の時も同じことをして、フロンティアモデルと競争したけど、実際には全然近くもなかったからね。で、今度は2.5がOpus 4.7と競うって?まあ、そうだね…

それってOpus 4.7の質についてのコメントなのか、Compose 2.5についてのコメントなのか? :P

投稿の中で自分たちでも言ってるじゃん - 行動次元は「既存のベンチマークではうまく捉えられていない」って。これがComposer 2の問題そのものだったんだよね。個々のタスクでは賢くないわけじゃなくて、編集をやめるタイミングや、どれだけのコンテキストを持ち越すか、ファイルを再読するタイミングなどのセッションレベルの判断が悪かった。孤立した評価ではそれを捉えられないんだよ。

前のコンポーザーのスレッドでも言ったけど、証拠は使い方にあるよね。コンポーザーを使ってるから、結果はある程度信じる気持ちもある。これは一般的な目的の最先端モデルじゃなくて、彼らのコーディングワークフローで安く動くモデルがオーパスやGPTに似た結果を出してるって感じ。

もし彼らのサイトのベンチマークが持つなら(多分無理だろうけど)、AIの収益が15倍くらい圧縮されるんじゃないかな?もし本当に4.7オーパスに相当するものを1/16のコストで持ってるなら、現在のキャペックスや計画に大きな影響を与えると思う。もしかしたら、イーロンにコストをカバーさせるつもりなのかも。

このやつ、ファストモードだとめっちゃすごい!今のところ感動してる。観察結果がオーパスに似てる感じもある。毎日GPT 5.5とオーパス4.7をたくさん使ってるけど、このスピードでいい結果が出せるなら、チームプランでも使えるといいな、ハハ。

彼らのベンチマーク結果を見た感じ、コーディングワークフローでめっちゃうまく動くモデルを訓練したみたい。一般的なモデルじゃないよ。一番難しい問題の一つは、与えたツールを使わせることなんだよね。

AIの収益を15倍圧縮するってことは、トークンあたりの価格でOpenAIやAnthropicのサブスクリプションと同じくらいになるってことだね。

AIの収益は上がっている一方で、トークンのコストは急激に下がってるね。これはジェボンズの逆説が当てはまる。ソフトウェアが安くなるほど、もっと多くのソフトウェアが作られる。ソフトウェアの需要は無限なんだ。

それが本当かどうかはわからないけど、機能を上げてコストを下げることは、結局もっと需要を生むだけな気がする。

これの問題は、実際のコストがわからないことだよね。もしかしたら、Anthropicみたいにユーザーを増やすためにコストを補助して、後で値上げするかもしれないし。

具体的に言うと、「これで収益は減るの?」ってことだけど、高品質トークンの需要が弾力的じゃなければそうなるね。もし需要が弾力的(安くなると増える)なら、収益は増える可能性が高いよ。「これで利益は減るの?」ってことだけど、古いモデルには現在の推論マージンがあって、イーロンとの契約があるから新しい推論マージンができるんだ。それが古いものより良いか悪いかは分からないけど、もし悪ければ使用量が増える必要があるね。増えなかったら、確かに利益は減るかもしれない。「これで企業価値は下がるの?」ってことだけど、下がらないよ。IPOから約90日後にはこの会社がSpaceXに買収されるから、新しいオーナーが気にするのは最初の数四半期でAnthropicやoAIと競争できるかどうかだけだと思う。もしそれができれば、SXの企業価値は大きく上がるよ。フロンティアラボを作るのは難しいからね。

ちょっと試してみたいな、オープンモデルをどこまで改善できるか見てみたいけど、Cursorのユーザー体験はあんまり恋しくないな。UIの変更が頻繁で、中途半端な機能、どんどん小さくなる制限、役に立たないAIの変更の帰属;他の人が良いって報告するまで待とうかな。

いい指摘だね。CodexやClaudeみたいなCLIツールの良さは、インターフェースが限られてるから、リリースされる機能も同じUXの制約に縛られてるところだと思う。一方で、もっと「ファンキー」なIDEは月ごとに変わるから、逆に疲れちゃう。

もうカーソルのCLI版は出てるんじゃないの?

UIの変更が本当に面倒だって感じる。ワークフローがほぼ常に後退してる。最近「複数エージェント」が壊れちゃって、新しいインターフェースはあまり良くないし、信頼性もない。モーダルが至る所にあって、長いブランチ名みたいな部分が切り詰められてて、使うのがすごくイライラする。実際、UIを改善することなく、常に変更してる感じ。多分キャンセルして、個人的なことにはオープンコードを使って、仕事では仕方なく使うことになるかな。昔はハーネスに感謝してたけど、今はあまり役に立たなくなってきてる…その一方で、実際のUIは使うのがかなり痛くて awkward になってる(「エージェント」ウィンドウで @ を使ったら、ファイルが見つからないのは「グローバル」スコープだから)。このセグメントで驚くのは、JetBrainsがこの人たちのランチを奪ってないこと。彼らのIDEはVSCodeよりも遥かに優れてるけど、AI統合は比較するとひどい(しかも基準が低い)。コンテキストウィンドウがどれだけ残ってるかも見えないし、サイズを調整できない小さな入力ボックスで質問に答えなきゃいけないのは本当に狂ってる。プロンプトを入力するテキストエリアもサイズ変更できないし、実際、UI/UXが経験のない人たちによって作られてる感じがする。

うん、Cursorには特別な思い入れがあるよ。AIで生産性が一気に上がった最初のツールだったから。でも今はあんまり使わないようにしてる。CLIも試してみるべきだね!

最近、プロジェクトをVSCodeのフォークウィンドウで最後に開いたときに「エージェント」ウィンドウを開き続けるのに気づいた。UIが全然違うのに、必要なものが欠けてるのに、そこで作業を続けると思ってるのかな。プロフェッショナルツールとしては、私のワークフローやフローステートに対するリスペクトがあまりにもないよ。アイコンやUIの切り替えが頻繁すぎて、まるでソーシャルアプリや営業アプリの成長ハッキングをしてる人が運営してるみたい。

Cursor CLIとZedエディタのどちらでも、ACP(エージェントコンテキストプロトコル)を使ってCursorを基盤プロバイダーとして利用できるよ。

100%同意だよ。めっちゃバグが多い。諦めてプランをキャンセルして、退屈な古いVSCodeに戻ったよ。こっちの方がずっと安定してるし、Macのメモリも足りなくならない。Cursor使ってた時は、週に何度もMacBookを再起動しなきゃいけなかったし、常に充電してないといけなかった。

同意だよ。Cursorをやめて、ConductorとClaude Code / Codex / Copilotの組み合わせに替えたけど、特に寂しくはないな。いつか戻るかもしれないけど。

Composer 2.5はComposer 2と同じオープンソースのチェックポイント、MoonshotのKimi K2.5に基づいて作られてるんだ。会社にクレジットを与えてるのが嬉しいし、Kimi KのオープンモデルがすぐにOpusモデルを上回ることを期待してるよ。

前回は隠そうとしてたからね、笑

最後のKimi-lineモデルがCursorにあるみたいだね?やっぱり、SpaceXのインフラで大きなモデルをトレーニングするって言ってるし、もう始めてる可能性が高いね。Composer 3のアーキテクチャが出たら、すごく楽しみだな。フロンティアコーディングモデルが増えるのはいいことだし、特に異なる強みや弱みがあればなおさら。

「私は楽観的だ。Kimi KのオープンモデルはすぐにOpusモデルを上回るだろう」 精製したモデルを上回るのは難しいよね…

チームにお疲れ様!API経由でモデルを利用できるようにしてほしいな!

最近SDKを出したよ。https://cursor.com/blog/typescript-sdk

なんでKimi K2.5モデルにインデックスしたの?オープンソースのものをいくつか試したけど、私の経験(標準的なバックエンド開発、Java、Python、Springなど)ではQwen3.6が驚くほど良いよ。Kimiはツール呼び出しの引数すらほとんど合ってないし。

運用コストが安いの?

モデルにはリードタイムがあって、Kimiで多分すでに調整のコツを掴んでるから、すぐに全てを切り替える準備はできてなかったんだろうね。いつかモデルを切り替えると思うけど。

Kimi 2.5は長いコンテキストに最適だね。生のコーディングベンチマークスコアは、もっと専門的なデータで上にポストトレーニングすればいい。2.5はちょっと古いけど、2.6が今のリリースで、まさにそれを実現していて、ほとんどの面で最前線に追いついてるよ。

試してみたけど、いい感じだね。ただ、速いバージョンはイマイチ。Cursorのプランニングモデルが、人間が書いたデザインドキュメントみたいに機能するのが好きなんだ。AIの計画が細かすぎるのはちょっとね。これがモデルの結果にもっと責任を持ってるみたいだけど、速いバージョンでは失敗したけど、普通の設定ではいい結果が出たよ。

Cursorについて何を言おうとも、彼らの野心はすごいよね。VS Codeをフォークして、クラウドエージェントみたいな最先端の機能に力を入れて、今は自分たちのモデルをゼロからトレーニングして、Kimi 2.5の1Tパラメータより「ずっと大きい」って直接フロンティアラボに挑戦してる。今までかなり成功してるし、500億ドル調達、20億ドルの収益、2026年末には60億ドル以上になる予測だって。でも、これだけの規模でも、OpenAIやAnthropic、Googleとは同じレベルにはいないよね。最先端のマルチ兆パラメータモデルを作るのが簡単じゃないとしても、一度登ったら終わりじゃない。数ヶ月ごとに新しいリリースでさらに進めないといけない。数サイクル落ち込んだら、Facebookみたいに二度と追いつけなくなるかも。心臓の弱い人には向いてないね。

うん、彼らにはうまくいってほしいな。Cursorは、エージェントが書いたコードを実際に扱うには、他の大手ベンダーが提供するツールよりずっといいと思う。

こんなにお金を集めたからって成功してるわけじゃないよ。投資家をうまく騙せるってだけ。VSCodeの拡張でチャットインターフェースを追加しただけのプロジェクトが、こんなにお金の価値があるとは思えない。もちろん、ユーザーがいるからだけど、人々はこれが天才的で革命的だと思ってるけど、全然違うよ。

生き残るためには自分たちのモデルをトレーニングするしかないんだ。トップクラスのモデルのAPI料金を払ってるけど、補助金付きのサブスクリプションと競争してるからね。

同じ名前を使ってるのがすごく混乱する。あの有名なPHPパッケージマネージャー、Composerと同じ名前だし。https://getcomposer.org/

最近の製品名には何かあるね。アンチグラビティ、アンチマター、Composer、Clay、Ramp、Boltとか。創業者たちは名前を選ぶ前に、命名の競合をググるべきだと思う。