世界を動かす技術を、日本語で。

企業の生成AIパイロットの95%が失敗している – MITレポート

概要

  • 企業のAI導入は進むが、ほとんどのパイロットプロジェクトが停滞
  • 成功するのは全体の約5%、多くは利益への貢献が限定的
  • 成功の鍵は外部ツール導入や現場主導の運用
  • バックオフィス自動化が最も高いROIを生む傾向
  • サイバーセキュリティや多様性の課題も浮上

企業AI導入の現状と課題

  • 企業が 生成AI への投資を加速する一方、 95% のパイロットプロジェクトが実質的な利益増加に結びつかない現状
  • MITの NANDAプロジェクト による調査で、150人のリーダーインタビュー、350人の従業員調査、300件のAI導入事例分析を実施
  • 成功例 はスタートアップに多く、特定の課題に集中し、パートナーシップを活用することで急成長を実現
    • 例:19〜20歳の起業家によるスタートアップが1年で売上ゼロから2,000万ドル達成
  • 失敗の主因はAIモデルの質ではなく、 ツールや組織の学習ギャップ および企業内統合の不備
  • ChatGPTのような汎用ツールは個人利用では強みを発揮するが、企業のワークフローへの適応力に課題

AI投資の最適化とROI

  • 生成AI予算の 半分以上 が営業・マーケティングツールに投入される一方、MITは バックオフィス自動化 に最大のROIを確認
    • 業務プロセスの自動化、外部委託コスト削減、オペレーション効率化が主な効果
  • 外部ベンダーからのAIツール購入やパートナーシップ による導入が約67%の成功率を示し、内製開発は1/3の成功率に留まる
  • 特に金融など規制産業では独自開発が多いが、調査では失敗率が高い傾向

導入成功のための要因

  • 現場マネージャー 主導の導入推進が重要、中央AIラボだけでなく現場への裁量権移譲
  • 長期的に企業ワークフローへ深く統合できるツール選定の必要性
  • 「シャドーAI」 (非公式ツール利用)の普及、AIの生産性・利益への影響測定が課題

人材と組織への影響

  • カスタマーサポートや事務職を中心に 人員削減ではなく欠員補充停止 という形で労働力構成が変化
  • 低付加価値業務の外部委託削減が進行中

次世代AIと今後の展望

  • 先進企業は エージェンティックAI (自律的に学習・行動するAI)を実験中
  • 今後の企業AI活用の進化を示唆

サイバーセキュリティと製造業におけるAI活用

  • 製造業ではIoT機器や制御システムの普及で サイバー攻撃リスク が増大
  • Rockwell Automationの調査で、サイバーセキュリティが インフレ・経済成長に次ぐ外部リスク2位
  • ITとOT(運用技術)両方を担当する人材が1/3
  • 収束型アーキテクチャの保護 が今後5年の成果に重要と回答したサイバーセキュリティ担当者は48%
  • 人材不足・訓練課題・人件費高騰 が主要障壁
  • 次世代採用では サイバーセキュリティと分析スキル が重視され、技術革新と人材育成の両立が課題

多様性と経済成長への影響

  • Pipeline社CEO Katica Royによる意見記事で、 30万人近いBlack女性の労働市場離脱 が米国経済に深刻な影響
  • Black女性は歴史的に米国で最も高い労働参加率を誇る
  • この傾向は短期的な問題ではなく、 企業の後継者計画・イノベーション・成長への直接的な脅威

企業文化とAI導入の現場

  • IgniteTechのCEO Eric Vaughanは 「AI Monday」 を設け、毎週月曜はAI関連業務専念を全社で義務化
  • チームのAI適応が遅いと判断し、1年で約80%のスタッフを入れ替え
  • 企業文化やリーダーシップによるAI導入推進の重要性

主要人事ニュース

  • The Timken Company :Michael A. DiscenzaがVP兼CFOに就任、25年の経験
  • ELB Learning :John ColeがCFOに就任、Fortune 100/500企業での経験を活かし財務基盤を強化予定

まとめ

  • 企業のAI導入は成功と停滞の二極化が鮮明
  • 成功には 外部ツール活用、現場主導、業務深耕 が不可欠
  • サイバーセキュリティや多様性も経営課題として浮上
  • 今後はエージェンティックAIや人材戦略が競争力の鍵

Hackerたちの意見

テクノロジーパイロットの失敗率って、一般的にどれくらいなんだろう?例えば、昔聞いた話だとSAPの導入失敗率は80〜90%だったらしいけど、引用できるソースは持ってないんだよね。

業界によると思うな。前の業界では25%くらいだったけど、今の業界では80%に近い感じ。

SAPの導入失敗率が80-90%だって聞いた。ERPの「失敗」は、予算オーバーや時間オーバーで定義されることが多いけど、最終的に完了して望ましい機能を提供した場合もある。キャンセルされたり、実際に稼働したけどビジネスのニーズに合わなかったプロジェクトは、実際にはもっと少ない割合だよ。

それは全然違うよ、正直に言って。もしそうだったら、会社はとっくに失敗してた。

あなたはいい方向に進んでると思う。ほとんどのテクノロジーパイロットは失敗するからね。リスクや投資が適切に管理されていれば、これは健全だと思う。これはサージョンの法則に従ってるみたいだね…「すべてのものの90%はクソだ」[0]。

https://archive.is/bdi7b

短縮された見出しを見て、誰がAIに飛行機を操縦させるのを許可してるのか疑問に思ったのは俺だけ?

いや、95%の成功率でも飛行機には不十分だと思った。

笑 俺も同じこと思ったし、「でもみんな自動操縦使ってるし、何が問題なの?」とも思った。

なんでダメなの?今の自動操縦は、ただ飛行機をコースや速度、高度に保とうとしてるだけだし。自動着陸まで進んでるものもあるけど、極限の緊急時だけ。航空会社は、燃料を節約するためにAIに少しの高度や速度、コースの変更を試させることを考えるかもしれないね。

そうだね、「パイロットプログラム」って書いてあればよかったのに。

確かに、二度見しちゃったよ。

LLMの導入は、誤陽性と特に誤陰性のコストが低い分野に最適だって結論に達してる。誤陰性を許容できないなら、LLMの不正確さをどうにかするのは難しいと思う。誤陽性が見つけられて、その率が十分に低ければ、ただの厄介者に過ぎないからね。LLMを活用するプロジェクトを始める前に、これを考慮するのはいいと思う。

LLMを使って開発したシステムで不正確さが問題になったことってありますか?あなたの不満はよく聞くけど、私の経験とは合わないな。確かに、エソテリックな問題を扱うチャットボットを一発で作ると、誤りが出る可能性があるよね。でも、LLMにPDFや他のドキュメントを調べさせると、そのエラー率はかなり下がるし、主に構造化プロセスの部分に起因してると思う。他の人の経験が気になるけど、特にビジネスワークフローでLLMを使ってる人たちの話が聞きたいな。完璧なシステムはないけど、目的に応じたデータパイプラインにはLLMはかなり良いと思うよ。

同意するよ。だからこそAIは500億ドルの産業にはなるけど、5兆ドルの産業にはならないと思う。

完全に同意する。こういうのは曖昧なケースでは役立つけど、私たちは曖昧な世界に生きてる。ほとんどのことは曖昧で、完全に真実なことも完全に偽りなこともない。人間がコードを展開しても、それが必ずしも機能するとは限らないし、LLMも同じだよね。ただ、程度が違うけど。

今、いくつかのAIプロジェクトに取り組んでて、「何が起こったのか」っていうインターフェースを作ってるんだ。そうすれば、結果が本当に求めてたものかどうか分かるからね。マネジメント層は、これが欲しいっていうアイデアに困惑してるみたい。次の時間に「ユーザーが何かしたんだけど、何が起こったか教えて」って言われても、ねえ…100%じゃないんだから。

データはリソース配分のミスマッチも示している。生成AIの予算の半分以上が営業やマーケティングツールに使われているが、MITはバックオフィスの自動化に最も大きなROIがあることを発見した—ビジネスプロセスのアウトソーシングを排除し、外部エージェンシーのコストを削減し、業務を効率化すること。納得だね。AIのイニシアティブやポリシーを設定する人たちは、オフィスの人やマネージャーで、AIに簡単に置き換えられるけど、自分たちが置き換えられるのは嫌がる。営業マンやエンジニアは一番置き換えにくいけど、彼らは責任者じゃないから一番早く置き換えられちゃう。

AIに対して過剰に褒めすぎだと思う。ほとんどのビジネスのユースケースでは、あんまり役に立たないのが明らかだよね。どの取り組みも同じ問題を抱えてる。スタッフが「これって実際にどう役立つの?」って聞いてくるのは、メールの文面を整えたり、コードを磨いたり、要約を書くくらいしかできないから。ほとんどの人の仕事とは違うんだよね。それに、AIは間違いや誤った前提をたくさん作るから、全部校正しなきゃいけないし、幻覚もあるし。ジョーやジェーンの労働者が自分の仕事を守るためにわざと使わないわけじゃないと思うけど、みんな楽に働きたいはず。でも、これらのLLMベースのAIは、特定のユースケース以外ではあんまり役に立たない。AIは過剰に持ち上げられてるし、今はそのハイプサイクルの中で、「この素晴らしいものが株価を上げると思ってるけど、実際にはほとんどのことに対してあんまり役立たない」って言いやすくなってるところだと思う。AIには役割があるけど、すべてを変えるような普遍的な存在ではないし、特定の狭いユースケース以外では大きな変化をもたらすわけじゃない。今、動画ゲームを作るのに3週目なんだけど(今までやったことないこと)、チュートリアルレベルのデザインを越えたら、これらのツールは本当に苦労してる。LLMが自然に成功するようなところ(構造化された論理言語)でも、まだまだ期待外れだと思う。みんながハイプに反発して、「この変なテキスト自動生成器は私には役立たない」って言えるようになってきてるんじゃないかな。

MITはバックオフィスの自動化で最大のROIを見つけたらしいけど、これに関するソースが全然見つからない。グーグルで探してもダメだった。ちょっと知ってる私からすると、あんまり信じられないな。人間と比べると、AIは固定された構造やプロセスが必要なところで苦労するし。

営業とマーケティングが最初に来る理由があるんだよね。それは「幻覚」に関係してる。人々は、営業やサポート、マーケティングを間違えても、最悪の場合は謝ってギフト券を渡せばいいって気づいてるんだ。それに、LLMの冗長な性質がマーケティングコピーを書くのに向いてるってのもある。顧客サポートみたいなビジネスプロセスアウトソーシングでは、たくさんの会社がLLMを使ってるから、その部分は私にはちょっと不明瞭。その他のBPOプロセスには会計や財務、IT、人事なんかがあるけど、企業は顧客のためにその幻覚リスクを取れるとしても、真剣なリスクだと見なしてる。例えば、AIの幻覚で会計や財務の業務がめちゃくちゃになったら、企業は本当に大変なことになるよ。他のバックオフィス機能、例えば人事やコンプライアンスでも同じことが言える。だから、この発言はただの戯言だと思う。

実際、誰もが企業が出してくる半分も役に立たないツールを欲しがってるわけじゃない。大体の解決策は本当に新しいわけじゃなくて、ただLLMをラッピングしてるだけ。メタのレイバンを見て気づいたことなんだけど、これを顔に付けておけば、ほぼすべての質問に10秒以内で答えてくれる。でも、私たち人間は、実際にはあまり質問がないんだよね。地元のスーパーに行くと、だいたい何が欲しいか、どこにあるかは分かってるし。多くの企業は、アプリにLLMのテキストボックスを貼り付けて、使われないと頭を抱えてる。なんでかっていうと、顧客がユーザーじゃなくて、上司や株主だったから。誰かに「おお、トレンドに乗ってる!」って思わせるためだけにやってるんだよね。生成AIの根本的な問題は、狭い範囲に焦点を当てたときに一番うまく機能するってこと。実際に見た中で、本当に賢い使い方は一つか二つだけで、残念ながらその一つがJiraだった。内部の専門用語辞典ツールは本当に印象的だったけど、もっとお金を稼げるかって言ったら、多分無理だね。

顧客がユーザーじゃなくて、上司や株主だったから。今、一部のオンラインショップが「うちのカスタマーサポートは素晴らしい!」って自慢してるのが面白いよね、だってLLMボットを使ってないからw

でも、私たち人間はあまり質問がないんだよね。うわ、これは私の個人的な経験とは全然合わないな。私は週に4〜5回、家の近くの貯水池を1時間くらい散歩して、自由に考えを巡らせてるんだけど、平均して少なくとも5回か10回は立ち止まって、後で答えを学ぶための質問をメモしてる。時には、その場で答えを学ぶためにペースを崩す価値があると思うこともある。

過去に似たようなことを人に伝えようとしたことがあるんだけど、JIRAのUIの443回目のデザイン変更でボタンが片側からもう片側に移動するっていうの。実際にはあなたのためじゃないんだよ。あなたはそのソフトウェアのユーザーじゃない。ソフトウェアのユーザーはプロダクトマネージャー(または同等の役割)で、彼らは今の役割や次の昇進を正当化する必要があるんだ。

こういう眼鏡は盲目の人にとって本当に役立つかもしれないね。似たような眼鏡を盲目の人向けに見たことがあるけど、理論上はいいアイデアだと思った。レンズの中に画面に文字を書く機能もあるみたいで、聴覚障害者にも良さそうだなって思った。ただ、こういうユースケースはかっこよくないし、大企業は地位や利益を保つためにかっこよくないといけないみたい。だけど、この技術は本当に脆弱な人たちに役立つかもしれないって感じがする。

休暇中はMetaの眼鏡をめっちゃ使ってるけど、たまに他でも使うくらいかな。最新のLlamaはOpenAIほど賢くないから、間違った回答が続いたら日常的な質問は諦めちゃった。でも、得意なシナリオでは本当に役立つよ。ヨーロッパを旅行してたとき、城の壁の彫刻を翻訳したり、歴史的なプレートを翻訳・要約したり、周りの状況を教えてくれたりしたんだ。

「顧客はユーザーじゃなくて、彼らの上司や株主だった。誰かに『おお、トレンドに乗ってる!』と思わせるためにやってたんだ。」これ、何度も見かけるよ。顧客をユーザーとして考えるのは、最後の関心事みたい。もし関心があるとしても。日々のナラティブに従ったり、投資家から資金を集めたり、役に立たない製品を小売に売りつけることが主な関心事。バポーワーや役に立たない、未発売の製品はここでは有利だよ。実際のユーザーは、どれだけ期待外れか、役に立たないかを報告するかもしれない。開発コストが高騰してるのが勝利として謳われてる。

クライアントのSaaS用にボックスに入ったチャットボットを実装したばかりなんだけど、これってどんな問題を解決してるの?私には全然わからない、ただ「AIがある」ってだけ。OpenAIのダッシュボードにはまだアクセスできるけど、実際に使ってる人はいないって確認できるよ。

そうそう、うちの会社でAIの実験をいくつか試してるんだけど、ちょっとインスピレーションを得るために周りを見てるんだ。結局、全部チャットGPTのラッパーみたいなもんじゃないの?それもできるけど、あんまり役に立たないし、データをどこかのAI会社に送ってるだけになっちゃう。クライアントのデータをそんな風に他に流すのはちょっと考えちゃうな。

顧客はユーザーじゃなくて、彼らの上司や株主だったから。最近、「AIがこういうことをもっと早くできるの?」って聞かれるようになった。最初は、そんなことはAIが得意なことじゃないからって説明しようとしたけど、実際には使ってるって言わなきゃいけないかも。たまには例を挙げる必要があるかもね。彼らはAIの素晴らしさを聞きすぎて、何か手助けできないことがあるとは信じられないみたい。私がAIを使うことに反対してないって言っても、ただ頑固だと思われそう。もし、AIを使ってスピードアップする部分を加えるのに実際の仕事が少し長くかかるとしても、彼らは喜ぶだろうね。

でも、私としては、あんまり質問することがないんだ。現実的には、仕事に直接関係ないことについて1日に10~100の質問をしてる。仕事に関する質問を含めると、その倍になるけど。

これってちょっと悲観的な見方だね。成功率5%って、実際にはかなり良いと思う。今、みんなAIをあらゆることに試してるし。5%って、AIがまだまだ改善の余地があることを考えると、かなりいい数字だよ。良いモデルはかなり高価で遅いし、速くて安いモデルはあまり良くない。特に微調整しない限り。成功事例の成長率が5%から25%に増えるのは、5年後か20年後にどうなるか分からないけど、ほぼ確実に成長するだろうね。今後5〜10年でトップの基盤モデルがどれだけ良くなるかは分からないけど、確実に言えるのは、同じ品質でのコストは大幅に下がるってこと。新しいユースケースもどんどん試されるだろうし。もし10年後にAIが2倍のユースケースで成功していたら、今の評価が正当化されるかは分からないけど、ずっと良い未来になるだろうし、人口の約25%が引退して働いていない状態になることを考えると必要不可欠だよね。AIが多くの仕事を代替しないと、約束した退職金を支払うのが大変になるから。

「5%はかなり良いよ。AIにはまだ改善の余地がたくさんあるからね。」それは、AIの成功がLLMの最前線の進展にどれだけ依存しているか、または実際にはほとんどの価値が「手の届く果実」に過ぎなかったかによるね。もし後者なら、ユーティリティカーブが平坦になっていることを示唆することになる。新しい開発が十分に重要な役割を果たしていないから。Sカーブを考えてるんだけど、2010年代はゆっくりとした改善が続いて、その後技術が「本物」を実現できるくらい良くなったときに活動が爆発して、効率や正確性の面で徐々に成果が出てきた感じ。

5%の成功率って、実際には思ってたよりずっと高いね。その調子なら、実際に利益を上げてるAI企業がVCの助成金で出てくるかもしれない。

5%の成功率ってことは、うまくいけば他の95%が得られない価値を手に入れられるってことだよね。これって実行力に大きく依存してると思う。実行の段階では、詐欺みたいなものがたくさんあるし。

「“毎週月曜日は『AI月曜日』と呼ばれていた。顧客との電話もできず、予算にも取り組めず、AIプロジェクトだけに取り組まなければならなかった。”」 「ボーンは、自分のチームが完全に乗り気ではないことに気づいた。彼の最終的な対応は?1年以内にスタッフの約80%を入れ替えた」 これがフォーチュン誌だから、こういう描写になるのは理解できるけど、ちょっと裏を読むと、スタッフは自分たちがどうなるか分かっていて、自分たちを入れ替えるのには乗り気じゃなかったみたいだね。

記事にリンクされているMITのレポートが404になってるみたい。こちらがウェブアーカイブのバージョンだよ: https://web.archive.org/web/20250818145714if_/https://nanda....

https://github.com/Papr-ai/papers/blob/main/v0.1%20State%20o...