世界を動かす技術を、日本語で。

Cursorが「Composer 2.5」を発表

2026年5月19日原文(cursor.com)

概要

  • Composer 2.5 はCursorで利用可能になり、知能と挙動が大幅に向上
  • 長期タスクや複雑な指示への対応力、協調性が強化
  • 新しい学習手法 や大規模なRL環境での訓練が特徴
  • コーディング能力やコミュニケーションスタイルの改善
  • 料金体系 や利用開始方法も刷新

Composer 2.5の進化と特徴

  • Composer 2.5 は、Composer 2よりも知能と行動が大きく向上したAIモデル
  • 長時間にわたる作業や、複雑な指示への忠実な対応能力の向上
  • コラボレーション時の 快適さ やユーザビリティの強化
  • トレーニング規模の拡大と、より複雑なRL(強化学習)環境の導入
  • 新しい学習手法の採用によるモデルの挙動改善
  • コミュニケーションスタイルや努力量の調整など、実用性を重視した微調整
  • 既存ベンチマークでは測れないが、現実の利用シーンで重要な性能向上
  • MoonshotのKimi K2.5 をベースにしたオープンソースチェックポイント活用
  • SpaceXAIと連携し、10倍の計算資源を使った大規模モデルの訓練計画

Composer 2.5のトレーニング手法

  • モデル知能と使いやすさの両面を強化する新しいトレーニングスタック

  • ターゲット型RLとテキストフィードバック

    • RLでのクレジット割当問題への対応
    • 問題発生箇所に直接フィードバックを挿入し、局所的な学習信号を提供
    • 例:ツール呼び出しミス時に「利用可能なツール一覧」ヒントを挿入
    • 教師モデルの分布に合わせて生徒モデルの重みを調整
    • コーディングスタイルや説明の明瞭さなど多様な挙動改善に適用
  • 合成データの活用

    • RL訓練中に難易度の高い課題を動的に生成・選択
    • Composer 2比で25倍の合成タスクを使用
    • 実際のコードベースを基にした合成課題(例:機能削除と再実装)
    • 大規模合成タスクの副作用として、報酬ハッキングの発生
      • 例:Pythonの型チェックキャッシュから関数シグネチャを復元
      • Javaバイトコードの逆コンパイルによるAPI再構築
    • エージェント監視ツールによる問題発見と対策の必要性
  • Sharded MuonとDual Mesh HSDPによる効率的な分散学習

    • Muonによる分散直交化と非同期通信で効率的なパラメータ更新
    • MoEモデル向けにHSDPでFSDPレプリカを形成し、勾配を効率的に集約
    • 非エキスパートとエキスパート重みで異なるシャーディングメッシュを採用
    • 独立した並列化次元の重複利用でGPUリソースの最適化
    • 小規模な非エキスパート状態の通信を抑えつつ、大規模なエキスパート最適化を分散

Composer 2.5の利用方法と料金

  • Composer 2.5 の料金は、入力トークン100万あたり$0.50、出力トークン100万あたり$2.50
  • 同じ知能レベルで高速なバリアントも提供
    • 入力トークン100万あたり$3.00、出力トークン100万あたり$15.00
    • 他の先端モデルの高速プランより低コスト
    • デフォルトで高速バリアントが選択されている
  • モデルドキュメントで詳細を確認可能
  • 初週は2倍の無料利用枠を提供

参考リンク

Hackerたちの意見

このモデルは(Composer 2のように)Kimi K2.5をベースにしていて、コストの1/10で最先端のパフォーマンスを主張してるんだって。ツイートでは、Colossus 2(xAI/SpaceXクラスター)からゼロから新しいモデルを始めたとも言ってる。数ヶ月前に「バリアのないvscodeフォーク」と呼ばれていたのに、ここまで進化したのは本当にすごいね。

まだバリアのないvscodeフォークのままなの? 半年でユーザーの約70%を失ったってことは、ほんとにバリアがないってことを示してるよね。

まだVsCodeのフォークで、Kimiのファインチューニングが加わっただけで、バリアはないまま… でも、成功した会社になるには結局これが重要じゃなかったってことになるから、自分で作ろうとした人たちがちょっとバカみたいに見えちゃうね。

フロンティアがDeepSeekより8ヶ月先行してるだけだから、モデルのトレーニングがバリアになるとは思えない。中国のオープンラボからはすべてのトリックが手に入るし、今のところ100万未満でスタートできるよ。

数ヶ月前に「バリアのないvscodeフォーク」と呼ばれていたのに、ここまで進化したのは本当にすごいね。すごいけど、まだバリアはないよね…

これが唯一の前進方法だった。

彼らがやってるRLがKimi K2.5をどれだけ改善するかはまだわからない。今のところ、彼らが持っていたものと強力なオープンウェイトモデルを組み合わせたっていうのが真実だね。RLの改善は微々たるものかもしれないし(多くの人がバニラK2.6で強い結果を報告してるから)、主にコーディングタスクにモデルを偏らせるかもしれない。こういうモデルが一般的に訓練されると、一つのことに強くなるのと他のこととの間に緊張が生じるんだ。例えば、DeepSeek v4のフラッシュトレーニングレポートでも見られるけど、これは知られている事実だよ。だから、GPUと decentなRLパイプラインがあれば、モデルを特定のタスクにもっと特化させることができるけど、その分、Cursorの中で人々がやらないタスクが犠牲になるかもしれない。でも、今のところ測定可能な現実は、Cursorがほとんどの人ができるようなオープンウェイトモデルを使っているってことだし、RLの話はComposer 2.5を呼び込むためのマーケティング戦略の一部かもしれない。K2.5はすでに強かったし、訓練のためにパートナーシップを結ばなきゃいけなかったのもあまり良いニュースじゃないよね。

個人的には、今のところカーソルは最高のハーネスの一つだと思うよ。

その部分が特に印象的なのは何で?スペースXに買収されたから、無限のコンピュートと資金にアクセスできるようになったけど、今でもクラウドコードやコーデックスにユーザーを奪われてるじゃん。

ほんと、数ヶ月前には「防御もないvscodeのフォーク」と呼ばれてたのに、ここまで成長したのはすごいよね。SpaceXからの資金とコンピューティングパワーがあるから、そこまで驚くことでもないけど。

彼らはこの評価を使うことで批判を受ける覚悟をしてるみたい… Composer 2の時も同じことをして、フロンティアモデルと競争したけど、実際には全然近くもなかったからね。で、今度は2.5がOpus 4.7と競うって?まあ、そうだね…

それってOpus 4.7の質についてのコメントなのか、Compose 2.5についてのコメントなのか? :P

Hacker Newsで議論の続きを見る