世界を動かす技術を、日本語で。

コードの行がより良い広報担当者を得た

2026年6月11日原文(curlewis.co.nz)

概要

  • AIによるコード生成 の増加と業界の主張の変化について解説
  • アウトカム(成果)指標 から ボリューム(量)指標 へのシフトを批判
  • 生産性や成果の測定方法 の重要性を強調
  • AI導入による解雇や効率化 の現実に懐疑的な視点
  • 本質的な価値測定基準 の再確認を提案

AI時代の開発現場で何を測るべきか

  • 15年前のSaaS企業での 開発者評価 の話から始まる
    • コード行数やPR数は 本質的な価値指標ではない
    • 重要なのは 実際に顧客や収益、信頼性へ貢献した成果
  • AIベンダー各社の主張
    • Google: 新規コードの75%がAI生成
    • Anthropic: 80%がClaudeによるコード、8倍の出荷量
    • OpenAI: 同様に約80%
    • Cursor: 1日1億行以上のエンタープライズコード生成
    • いずれも「 コード量」という ボリューム指標

成果から量へ―業界の指標変化

  • 数年前は アウトカム(成果) が重視されていた
    • 例:GitHub Copilotで タスク完了速度55%向上
    • 「速くなった/価値が上がった」など 検証可能な主張
  • 現在は ボリューム数値 ばかりが並ぶ
    • AI生成コードの割合 などは本質的価値を示さない

アウトカム指標の複雑化と現実

  • 成果に関する研究結果 が分かれ始める
    • Cuiらの研究: タスク完了+26%(特にジュニアに効果大)
    • GitClear: コードのリファクタ減少・チャーン増加
    • METR: AI利用で19%遅くなったが、後に設計変更し速度向上主張へ
    • NBER調査: AI導入企業の9割が生産性向上を実感できず
    • 総合すると 組織全体で10%前後の効率化 が現実的な範囲
  • 「AIで開発者不要」には程遠い現状

バニティメトリクスとAI成熟度モデル

  • AI成熟度モデル採用段階指標 も乱立
    • 例:Carnegie Mellon SEI/Accentureの AI Adoption Maturity Model
    • Steve Yeggeの 8段階AI開発レベル
    • いずれも「 使っている量=成熟度」という 採用強度の測定
  • Augment調査AIネイティブ開発 の定義は219人全員がバラバラ
  • Anthropicの例: コード出荷量8倍理解度17%低下 という相反する結果
    • マーケティングは量、リサーチは質 というダブルスタンダード

AI導入とリストラの論理

  • AIによる人員削減の根拠 に疑問
    • 例:Block(Jack Dorsey)が AI活用で40%以上削減
    • Atlassianも AIによるスキル・人員構成変化 を理由に10%削減
    • 業績好調な中での削減 は「AIで生産性向上」のPR的利用の疑念
  • 実際に余剰人員が発生している証拠は見当たらない
    • 本当に価値を生むなら、顧客価値や売上に反映されるはず
    • 「AI指標」での選別は宝くじと同じ

本質的な測定基準とAI活用の立ち位置

  • AI活用は必須だが、測定は本質的に
    • DORAメトリクス、信頼性、意味のある変化率、収益・顧客価値 など
    • 「AIスコア」よりも実績・成果を重視
  • 採用はスタート地点、本当の価値は成果で測るべき
    • AIファーストな働き方伝統的な成果測定 の併用が理想
  • 次の会議や提案時には「それは成果か量か?」と問いかけを

まとめ

  • AI導入は不可逆な流れ
  • 本質的な価値測定基準を見失わないことが重要
  • AI活用は積極的に、評価は冷静に

Hackerたちの意見

この変なトレンドは、2026年2月のOpenAIのブログ記事でピークに達したんだよね。最近、フロントページにも載ってたけど、そこでは「何か」をエージェントが100%書いたプロセスについて説明してる。でも、その「何か」が何なのか、ユーザーにどんな価値を提供するのかは全然書かれてない。唯一近いのは「その製品は、日々の内部パワーユーザーを含む何百人ものユーザーに使われている」ってところ。でも、最初の数百語の中で「そのものには100万行のコードがある」ってことが2回も繰り返されてるんだよね。

Linuxカーネル全体は約4000万行のコードで、ドライバーを除くと1600万行くらいになるんだ。OpenAIが言ってたことが、Linuxカーネルの6%のユーティリティを持っているなんて、全く想像できないよ。たとえコードの行数が6%でもね。彼らのLLMがどれだけ強力でも、メンテナンスができるとは思えないし。

「この製品は、内部で数百人のユーザーに使われており、日々のパワーユーザーも含まれています。」私の予想では、これはメールフィルターだと思う。>百万行のコード >100%エージェントが書いた うん、多分メールフィルターだね。あるいは、基本的にMS JScriptを使ってjQueryを再現する部門用のウィキのJSメニューかも。

「月にエンジニア1人あたり100万行のコードを作りたい」って言ったマイクロソフトの人のことをずっと考えてる。話したエンジニアたちにはほとんどが皮肉に聞こえたけど、実際には全然皮肉じゃなくて、LLMのコード生成について多くのCEOたちの考えを反映してるみたい。最近数ヶ月で、維持できない量のコードを生産することへのハイプが少し収まってきた気がする。もっと現実的で実用的な意見がオープンに共有されるようになって、もしかしたら一部のテック企業のトップにも届いてるかもしれない。まだ全てが失われたわけじゃないかも。

「スロップ」って言葉は、AIが生成した大量のコードを表現するのにいい選択だと思う。技術に詳しくない人にも響くし、嫌悪感を伝えることができるから。スロップは避けるべきだってのは明らかだよね。「技術的負債」って言葉は、経営陣には同じように響かないし、解決が必要だって納得させるのが難しい。一般的に負債は問題になりうるけど、問題になるまで避けたり対処したりする必要はないから、先延ばしにされがちなんだよね。

「月にエンジニア1人あたり100万行のコードを作りたい」って言ったマイクロソフトの人のことをずっと考えてる。話したエンジニアたちにはほとんどが皮肉に聞こえたけど。 そのエンジニアたちは、実際にツイートを全部読んでなかったのかな?「エンジニアは月に100万行の製品コードを書くべき」って話じゃなくて、「1人のエンジニアが100万行の自動変換を管理できるように、安全な言語への自動ポーティングをスケールしたい」ってことなんだよね。全然皮肉に聞こえないよね?「ほぼ信頼できるAI駆動のリファクタリングツールを良いガードレールと共に開発する」って意味だと思うし、実際かなり理にかなってるよね。

GitHubの信頼性の問題がこれに影響してるかもしれないと思う。

ほとんどが皮肉に聞こえたけど。 エンジニアたちもこれを間違えてるみたいだね。Cursorがエージェントのグループがどれだけの行数のコードを生成できるか自慢してた時を思い出す。ほとんど動かないブラウザができたのに、同じものはもっと少ないコードで作れるのに。彼らは自分たちのエージェントの星座がどれだけのスロップを生み出したかを誇らしげに強調してたけど、これがエンジニアだとは本当に不思議だよね。

すべてが同じ条件下で、正しいものを作っていると仮定すると、より多くの正しいコード行を提供できるのは良いことだよね。でも、人間がすべてを読むことは不可能だから、どうやって信頼性を持たせるかが問題なんだ。私の考えでは、正しさの証明と統計的品質管理を使ったスポットチェックが必要だと思う。後者は自動化できるものだしね。ただ、モデルが常に変わっているから、統計的にうまく理解されていないのが問題だと思う。

1000人のエージェントがメンテナンスすれば、維持できないわけじゃないよ。

最近数ヶ月で、維持できない量のLoCを生産することへの盛り上がりが少しずつ収まってきたように感じる。これには、ビジネスやプロダクトの人たちが実際にAIを日常のワークフローに取り入れようとしていることが一因かもしれない。私が働いている小さな会社でもそういうのを見た。数ヶ月前にClaude Coworkを手に入れたときはみんなすごく興奮してたけど、今は毎日使ってるものの、期待してた魔法に比べるとちょっと物足りないって感じ。出力が平凡で冗長だったり、基本的なことを間違えたり、トークン制限に引っかかったりして、結局自分でやった方が早いって人も多い。確かに最初は使い方を間違えてる部分もあるけど、AIのCEOやLinkedInの詐欺師、YouTubeのAIサプリメント販売者が言ってることと現実の間には、まだまだギャップがあるかもって気づいてる人が増えてきてる。

以前、80%のコードカバレッジが求められる会社で働いてたことがある。ある契約者が、全体のコードベースで80%を達成するために調整できるサイズのテストスイートを持つ単一のファイルを生成するスクリプトを作ってたんだ。ほとんどのコードはテストされてなかったけどね。

Hacker Newsで議論の続きを見る