概要
- Large Language Models(LLMs) による知識労働の変革可能性
- 委任作業 における信頼性の重要性
- DELEGATE-52 ベンチマークによるLLMの性能評価
- 長期作業での 文書劣化 の深刻さ
- 現行LLMの 信頼性課題 の明確化
LLMによる委任作業と信頼性の課題
- LLMs は知識労働を変革する可能性を持つAI技術
- 委任作業(delegated work) は、LLMに業務を任せる新たなインタラクションパラダイム
- 委任には、 LLMがタスクを正確に実行し、文書に誤りを持ち込まない という信頼が不可欠
- DELEGATE-52 は52の専門分野(プログラミング、結晶学、音楽記譜など)にわたる長期文書編集タスクをシミュレートするベンチマーク
- 19種類のLLMを用いた大規模実験を実施
DELEGATE-52ベンチマークの主な発見
- 最先端モデル( Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4)でも、長期作業の末に 平均25%の文書内容が破損
- 他のモデルではさらに深刻な劣化が観察
- エージェント的ツール利用 (agentic tool use)はDELEGATE-52の性能向上に寄与せず
- 文書サイズ、 インタラクションの長さ、 気を散らすファイルの存在 が劣化の深刻化要因
- LLMは まばらだが重大な誤り を静かに文書へ導入し、やがて累積的な破損につながる
現行LLMの限界と今後の課題
- 現在のLLMは 信頼できる代理人 としては不十分
- 長期的な作業や複雑な文書編集では 重大なエラー が発生しやすい
- 人間とAIの協働 における品質保証や監督の重要性
- 今後は エラー検出・修正能力 や 信頼性向上 への技術開発が求められる