LLMに関するすべては依然として魔法のようで、夢物語である

2025年7月5日原文(dmitriid.com)

概要

AI や LLM に対する評価の分断現象
批判・称賛の多くが 具体性・定量性 を欠く
現場・背景条件 が可視化されていない
非決定的挙動 と過度な期待
業界全体での 批判的思考の欠如

AI・LLM評価の分断現象

Hacker News などでAI批判をする開発者に対し、ツールやMCP（Multi-Component Programs）などの現状を十分に理解していないとの指摘
Crypto 界隈と同様、懐疑的な意見に対して「理解不足」と決めつける風潮
「 ほとんど役に立つ」派と「 全く使えない」派の 深い溝
この分断の理由は単純かつ明白だが、業界ではあまり議論されていない

評価ギャップの本質

LLM の効果についての記述は多くが 断片的 で、 定量的指標 が不足
どんな プロジェクト で使ったか不明
コードベース （新規・既存・独自等）の種類も不明
利用者の 専門性や経験 も不明
どの程度 レビュー・修正・運用 など追加作業が必要だったか不明
仮に一人が詳細を語っても、 他者と比較できない 情報不足
さらに、 非決定的 なAIの特性により、同じ問題でも結果が毎回異なる

業界全体の問題点

Reactの新規プロジェクト を扱う上級エンジニアと、 OCamlのクローズドコード に触れる非エンジニアの体験は比較不可能
それでも 過剰な期待や魔法のようなイメージ が蔓延
業界リーダー による抽象的な称賛コメントが拡散
- 例：「Claude Codeが古いバグを一掃」「チャットだけで驚異的なタスクをこなす」
- しかし、 コードベース規模・バグ内容・追加作業 など詳細は不明
- こうした投稿に 多くの「いいね」やリポスト が集まる

批判的思考と現実

批判的思考 を働かせずに 盲目的に信じる風潮
懐疑的な人は「本質を理解していない」と扱われがち

著者自身の経験

Vercel v0 で設計したサイドプロジェクト
Claude Code でSwiftUI（未経験）アプリを開発
Midjourney でイベント用ポスター作成
Elixir でMCPサーバーを「vibe coding」
日常的にAIツールを利用 し、 成功率は50%程度
AIは非決定的な統計機械 であり、魔法でもエンジニアリングでもない

LLM論争の本質

現状の議論は魔法か エンジニアリング かの二元論に陥りがち
実際はそのどちらでもなく、 曖昧な中間領域 の存在
批判的思考 と 具体的な定量評価 の必要性

Hackerたちの意見

仕事の管理者が10倍の生産性向上を聞いたってのが、ちょっとイライラするんだよね。うちの早期導入者からの話もあるけど、期待値が高すぎるんだよ。部分的にはアムダールの法則のせいで、コーディングに使う時間はほんの一部で、他の人と考えたりコミュニケーションを取る時間がもっと多い。たとえコーディングが10倍速くなったとしても（実際はほとんどそうならないけど）、全体の生産性は10〜15%くらいしか上がらない。それでも無視できる数字じゃないけど、10倍には程遠いね。

└

全体の生産性は10〜15%くらいしか上がらない。それでも無視できる数字じゃないけど、10倍には程遠いね。LLMツールのコストのせいで、雇用コストが10〜15%高くなるなら、それは無視できない数字だよ。生産コストはスループットだけじゃなくて、常に考慮すべきだね。

└

私がイライラするのは、職場の経営陣が10倍の生産性向上を聞いたことがあることだ。中には職場の初期導入者からの主張もある。私の職場でも似たような状況だけど、内部の初期導入者からの生産性の主張は、非常に狭い測定方法と、かなり怪しい数学に基づいているものばかりだよ。

└

オープンソースプロジェクトの分析によると、生産性は10%から15%向上するらしいよ…だから、君の言ってることは正しいね。

└

ただのテクノロジーのハイプ波だと思う。現実は完全な破滅と無限のユートピアの間くらいだろうけど、たぶんそのどちらでもない。AIのことは、2000年代初頭にソフトウェアエンジニアを外注しようとした時の大きな動きに似てる。経営者たちの間でめちゃくちゃ盛り上がってたけど、書類上ではすごく妥当に見えた。でも、ほとんどの取り組みは大失敗に終わって、ほとんどの仕事はアメリカに戻ってきた。ソフトウェアエンジニアがやってる、全体をまとめるための小さなことを無視しがちなんだよね。AIはその辺が欠けてる。外国人がそれを欠いてるわけじゃないけど、言語の壁やタイムゾーンの違い、文化の違いなどが似たような問題を引き起こす。コードの品質や保守性は急降下して、外注先で作られたものの多くはゴミ箱行きになった。今、僕が関わってるコードベースにもAIの雑なものが溜まってきてるのが見える。コードレビューを通り抜けてしまうこういう問題を見つけるのはすごく難しいんだ。差分を見てると、合理的に見えるからね。問題は、見えてない冗長なコードや、高い視点から見ると全く意味がない奇妙な抽象化なんだ。

└

君の今日の世界に対する見解には同意するけど、たった12ヶ月前（今のベースモデルやClaude Codeのようなコーディングエージェントが出る前）は、コードの一部を書くことで10倍の改善なんてあり得なかったよ。

└

個人プロジェクトでは、状況によっては簡単に10倍以上速くなることもある。仕事では、数ヶ月先を見越して計画を立てて、5つの異なるチームと協力して、開発中に8回も変わる要件に対して正しいやり方を見つける？PRレビューや他の人が理解できるようにするだけでも大変だよ。時には、たぶんトントンか10-15%の改善に留まることもある。環境によってはうまく機能しないこともあって、AIが本当にうまくいくためには（超高品質なアーキテクチャの計画やデザイン、標準化されたパターンなど）が必要だけど、それは小さなスタートアップや個人プロジェクト以外では実現不可能だよ。正直、エンジニアたちがその超特化した標準化パターンに同意するのさえ大変だし、AIを助けるものは彼らが慣れているものとは違うことが多い。少しでも逸脱するものが出てくると、AIが混乱して10倍の効果が得られなくなる。特に、僕が「10倍」のローカルプロジェクトで行う変更のPRをレビューしてくれる人なんていないし…その基準を維持するのも、サイドプロジェクトではすでに大変だ。AIは自然に逸脱してノイズを生み出すし、それをガイドするシステムを構築するのが課題なんだ（ノイズはさらにノイズを生むから）。結局、バランスを取り直すことが大事だと思う。もし、同じ志を持ったエンジニアが1人か2人いれば、彼らは10倍の効果を得られるだろう。でも、実際の企業環境や、4人以上になると、そんなことは絶対にないと思う。中間管理職やプロジェクト計画にはAIが役立つけどね。

└

今の仕事がR&D寄りだからかもしれないけど、俺にとってLLMは「思考」の部分でも「コーディング」の部分でも同じくらいの成果を出してくれてるよ。今のところ「コミュニケーション」は自分でなんとかできてるしね。LLMを「思考」タスクに使うのは、20年以上前にウェブ検索をマスターしたときの感覚に似てる。検索エンジンは、何を探しているか分かっていれば情報にアクセスできたけど、今はLLMが何を探しているかを見つける手助けをしてくれて、その上で便利に検索もしてくれる。これで、以前は手間や不確実性から難しいと感じていたタスクが簡単になったよ。今では、ウェブ検索の約1/3をChatGPTでやってるし、もう手放せないと思う。LLMが半端な考えを整理してくれるおかげで、タスクがずっと楽に感じるっていう心理的な面もあって、それだけでも大きな違いがあるね。

└

コミュニケーションや会議のどれくらいが、従来のコード作成が非常に高価で遅かったからだと思う？将来的にどれくらいの会議が効率化されるか、あるいは完全になくなるか？俺の経験では、ソフトウェアがスケジュール通りに進んでいることや、ちゃんと機能していることを確認するためのプロセスがたくさんあると思う。ソフトウェアライフサイクルが再発明される時が来てるんじゃないかな。

└

僕がイライラするのは、今働いてる会社の経営陣が10倍の生産性向上を聞いたことだね。これは、ジュニア開発者にとってLLMがシニア開発者ほどの加速剤にならないからかもしれない（ジュニアは良いものと悪いものの区別がつかないし）。だから、1人のシニア開発者に強化されたLLMのワークフローを与えたら、10人のプレLLMジュニアと同じくらい生産的になるのも驚かないよ。もしかしたらそれ以上かも。悪い開発者は実際には負の生産性を生むことがあるから（シニアから盗む）、その場合は無限大になる。普通のジュニアはほとんど低レベルの雑用に制限されていて、LLMはそれをすでにもっと上手くこなせる。要するに、仕事が失われる可能性があるのは理解できる。

└

AIを使って「全くコーディングせずに」小さなアプリを週末に作って、月曜日にそれを自慢して、エンジニアがタスクに時間がかかることに驚くのは最高だね。

俺は引退したプログラマーなんだけど、ミッションクリティカルな仕事に確率で生成されたコードを信頼するなんて考えられないよ。もし微調整が必要な程度なら理解できるけど、経験がないからね。俺のコメントは、LLMがコーディング以外の分野、例えばブレインストーミングやアイデア出し、リサーチの詳細を埋めたり、考えさせる質問をするのがすごいってことを伝えたいだけ。LLMを思考のパートナーとして扱ってる。間違いもあるけど、他のソースをチェックしたり、別のLLMに結論をレビューさせたりすれば簡単に見つけられるよ。

Hacker Newsで議論の続きを見る

ハクソク