概要
- AI や LLM に対する評価の分断現象
- 批判・称賛の多くが 具体性・定量性 を欠く
- 現場・背景条件 が可視化されていない
- 非決定的挙動 と過度な期待
- 業界全体での 批判的思考の欠如
AI・LLM評価の分断現象
- Hacker News などでAI批判をする開発者に対し、ツールやMCP(Multi-Component Programs)などの現状を十分に理解していないとの指摘
- Crypto 界隈と同様、懐疑的な意見に対して「理解不足」と決めつける風潮
- 「 ほとんど役に立つ」派と「 全く使えない」派の 深い溝
- この分断の理由は 単純 かつ 明白 だが、業界ではあまり議論されていない
評価ギャップの本質
- LLM の効果についての記述は多くが 断片的 で、 定量的指標 が不足
- どんな プロジェクト で使ったか不明
- コードベース (新規・既存・独自等)の種類も不明
- 利用者の 専門性や経験 も不明
- どの程度 レビュー・修正・運用 など追加作業が必要だったか不明
- 仮に一人が詳細を語っても、 他者と比較できない 情報不足
- さらに、 非決定的 なAIの特性により、同じ問題でも結果が毎回異なる
業界全体の問題点
- Reactの新規プロジェクト を扱う上級エンジニアと、 OCamlのクローズドコード に触れる非エンジニアの体験は比較不可能
- それでも 過剰な期待や魔法のようなイメージ が蔓延
- 業界リーダー による抽象的な称賛コメントが拡散
- 例:「Claude Codeが古いバグを一掃」「チャットだけで驚異的なタスクをこなす」
- しかし、 コードベース規模・バグ内容・追加作業 など詳細は不明
- こうした投稿に 多くの「いいね」やリポスト が集まる
批判的思考と現実
- 批判的思考 を働かせずに 盲目的に信じる風潮
- 懐疑的な人は「本質を理解していない」と扱われがち
著者自身の経験
- Vercel v0 で設計したサイドプロジェクト
- Claude Code でSwiftUI(未経験)アプリを開発
- Midjourney でイベント用ポスター作成
- Elixir でMCPサーバーを「vibe coding」
- 日常的にAIツールを利用 し、 成功率は50%程度
- AIは非決定的な統計機械 であり、魔法でもエンジニアリングでもない
LLM論争の本質
- 現状の議論は 魔法 か エンジニアリング かの二元論に陥りがち
- 実際はそのどちらでもなく、 曖昧な中間領域 の存在
- 批判的思考 と 具体的な定量評価 の必要性