概要
- AIによるコード生成 の増加と業界の主張の変化について解説
- アウトカム(成果)指標 から ボリューム(量)指標 へのシフトを批判
- 生産性や成果の測定方法 の重要性を強調
- AI導入による解雇や効率化 の現実に懐疑的な視点
- 本質的な価値測定基準 の再確認を提案
AI時代の開発現場で何を測るべきか
- 15年前のSaaS企業での 開発者評価 の話から始まる
- コード行数やPR数は 本質的な価値指標ではない
- 重要なのは 実際に顧客や収益、信頼性へ貢献した成果
- AIベンダー各社の主張
- Google: 新規コードの75%がAI生成
- Anthropic: 80%がClaudeによるコード、8倍の出荷量
- OpenAI: 同様に約80%
- Cursor: 1日1億行以上のエンタープライズコード生成
- いずれも「 コード量」という ボリューム指標
成果から量へ―業界の指標変化
- 数年前は アウトカム(成果) が重視されていた
- 例:GitHub Copilotで タスク完了速度55%向上
- 「速くなった/価値が上がった」など 検証可能な主張
- 現在は ボリューム数値 ばかりが並ぶ
- AI生成コードの割合 などは本質的価値を示さない
アウトカム指標の複雑化と現実
- 成果に関する研究結果 が分かれ始める
- Cuiらの研究: タスク完了+26%(特にジュニアに効果大)
- GitClear: コードのリファクタ減少・チャーン増加
- METR: AI利用で19%遅くなったが、後に設計変更し速度向上主張へ
- NBER調査: AI導入企業の9割が生産性向上を実感できず
- 総合すると 組織全体で10%前後の効率化 が現実的な範囲
- 「AIで開発者不要」には程遠い現状
バニティメトリクスとAI成熟度モデル
- AI成熟度モデル や 採用段階指標 も乱立
- 例:Carnegie Mellon SEI/Accentureの AI Adoption Maturity Model
- Steve Yeggeの 8段階AI開発レベル
- いずれも「 使っている量=成熟度」という 採用強度の測定
- Augment調査 : AIネイティブ開発 の定義は219人全員がバラバラ
- Anthropicの例: コード出荷量8倍 と 理解度17%低下 という相反する結果
- マーケティングは量、リサーチは質 というダブルスタンダード
AI導入とリストラの論理
- AIによる人員削減の根拠 に疑問
- 例:Block(Jack Dorsey)が AI活用で40%以上削減
- Atlassianも AIによるスキル・人員構成変化 を理由に10%削減
- 業績好調な中での削減 は「AIで生産性向上」のPR的利用の疑念
- 実際に余剰人員が発生している証拠は見当たらない
- 本当に価値を生むなら、顧客価値や売上に反映されるはず
- 「AI指標」での選別は宝くじと同じ
本質的な測定基準とAI活用の立ち位置
- AI活用は必須だが、測定は本質的に
- DORAメトリクス、信頼性、意味のある変化率、収益・顧客価値 など
- 「AIスコア」よりも実績・成果を重視
- 採用はスタート地点、本当の価値は成果で測るべき
- AIファーストな働き方 + 伝統的な成果測定 の併用が理想
- 次の会議や提案時には「それは成果か量か?」と問いかけを
まとめ
- AI導入は不可逆な流れ
- 本質的な価値測定基準を見失わないことが重要
- AI活用は積極的に、評価は冷静に