概要
- Composer 2.5 はCursorで利用可能になり、知能と挙動が大幅に向上
- 長期タスクや複雑な指示への対応力、協調性が強化
- 新しい学習手法 や大規模なRL環境での訓練が特徴
- コーディング能力やコミュニケーションスタイルの改善
- 料金体系 や利用開始方法も刷新
Composer 2.5の進化と特徴
- Composer 2.5 は、Composer 2よりも知能と行動が大きく向上したAIモデル
- 長時間にわたる作業や、複雑な指示への忠実な対応能力の向上
- コラボレーション時の 快適さ やユーザビリティの強化
- トレーニング規模の拡大と、より複雑なRL(強化学習)環境の導入
- 新しい学習手法の採用によるモデルの挙動改善
- コミュニケーションスタイルや努力量の調整など、実用性を重視した微調整
- 既存ベンチマークでは測れないが、現実の利用シーンで重要な性能向上
- MoonshotのKimi K2.5 をベースにしたオープンソースチェックポイント活用
- SpaceXAIと連携し、10倍の計算資源を使った大規模モデルの訓練計画
Composer 2.5のトレーニング手法
-
モデル知能と使いやすさの両面を強化する新しいトレーニングスタック
-
ターゲット型RLとテキストフィードバック
- RLでのクレジット割当問題への対応
- 問題発生箇所に直接フィードバックを挿入し、局所的な学習信号を提供
- 例:ツール呼び出しミス時に「利用可能なツール一覧」ヒントを挿入
- 教師モデルの分布に合わせて生徒モデルの重みを調整
- コーディングスタイルや説明の明瞭さなど多様な挙動改善に適用
-
合成データの活用
- RL訓練中に難易度の高い課題を動的に生成・選択
- Composer 2比で25倍の合成タスクを使用
- 実際のコードベースを基にした合成課題(例:機能削除と再実装)
- 大規模合成タスクの副作用として、報酬ハッキングの発生
- 例:Pythonの型チェックキャッシュから関数シグネチャを復元
- Javaバイトコードの逆コンパイルによるAPI再構築
- エージェント監視ツールによる問題発見と対策の必要性
-
Sharded MuonとDual Mesh HSDPによる効率的な分散学習
- Muonによる分散直交化と非同期通信で効率的なパラメータ更新
- MoEモデル向けにHSDPでFSDPレプリカを形成し、勾配を効率的に集約
- 非エキスパートとエキスパート重みで異なるシャーディングメッシュを採用
- 独立した並列化次元の重複利用でGPUリソースの最適化
- 小規模な非エキスパート状態の通信を抑えつつ、大規模なエキスパート最適化を分散
Composer 2.5の利用方法と料金
- Composer 2.5 の料金は、入力トークン100万あたり$0.50、出力トークン100万あたり$2.50
- 同じ知能レベルで高速なバリアントも提供
- 入力トークン100万あたり$3.00、出力トークン100万あたり$15.00
- 他の先端モデルの高速プランより低コスト
- デフォルトで高速バリアントが選択されている
- モデルドキュメントで詳細を確認可能
- 初週は2倍の無料利用枠を提供
参考リンク
- 詳細情報:Cursor公式Twitter