世界を動かす技術を、日本語で。

LLMに関するすべては依然として魔法のようで、夢物語である

概要

  • AILLM に対する評価の分断現象
  • 批判・称賛の多くが 具体性・定量性 を欠く
  • 現場・背景条件 が可視化されていない
  • 非決定的挙動 と過度な期待
  • 業界全体での 批判的思考の欠如

AI・LLM評価の分断現象

  • Hacker News などでAI批判をする開発者に対し、ツールやMCP(Multi-Component Programs)などの現状を十分に理解していないとの指摘
  • Crypto 界隈と同様、懐疑的な意見に対して「理解不足」と決めつける風潮
  • ほとんど役に立つ」派と「 全く使えない」派の 深い溝
  • この分断の理由は 単純 かつ 明白 だが、業界ではあまり議論されていない

評価ギャップの本質

  • LLM の効果についての記述は多くが 断片的 で、 定量的指標 が不足
  • どんな プロジェクト で使ったか不明
  • コードベース (新規・既存・独自等)の種類も不明
  • 利用者の 専門性や経験 も不明
  • どの程度 レビュー・修正・運用 など追加作業が必要だったか不明
  • 仮に一人が詳細を語っても、 他者と比較できない 情報不足
  • さらに、 非決定的 なAIの特性により、同じ問題でも結果が毎回異なる

業界全体の問題点

  • Reactの新規プロジェクト を扱う上級エンジニアと、 OCamlのクローズドコード に触れる非エンジニアの体験は比較不可能
  • それでも 過剰な期待や魔法のようなイメージ が蔓延
  • 業界リーダー による抽象的な称賛コメントが拡散
    • 例:「Claude Codeが古いバグを一掃」「チャットだけで驚異的なタスクをこなす」
    • しかし、 コードベース規模・バグ内容・追加作業 など詳細は不明
    • こうした投稿に 多くの「いいね」やリポスト が集まる

批判的思考と現実

  • 批判的思考 を働かせずに 盲目的に信じる風潮
  • 懐疑的な人は「本質を理解していない」と扱われがち

著者自身の経験

  • Vercel v0 で設計したサイドプロジェクト
  • Claude Code でSwiftUI(未経験)アプリを開発
  • Midjourney でイベント用ポスター作成
  • Elixir でMCPサーバーを「vibe coding」
  • 日常的にAIツールを利用 し、 成功率は50%程度
  • AIは非決定的な統計機械 であり、魔法でもエンジニアリングでもない

LLM論争の本質

  • 現状の議論は 魔法エンジニアリング かの二元論に陥りがち
  • 実際はそのどちらでもなく、 曖昧な中間領域 の存在
  • 批判的思考具体的な定量評価 の必要性

Hackerたちの意見

仕事の管理者が10倍の生産性向上を聞いたってのが、ちょっとイライラするんだよね。うちの早期導入者からの話もあるけど、期待値が高すぎるんだよ。部分的にはアムダールの法則のせいで、コーディングに使う時間はほんの一部で、他の人と考えたりコミュニケーションを取る時間がもっと多い。たとえコーディングが10倍速くなったとしても(実際はほとんどそうならないけど)、全体の生産性は10〜15%くらいしか上がらない。それでも無視できる数字じゃないけど、10倍には程遠いね。

全体の生産性は10〜15%くらいしか上がらない。それでも無視できる数字じゃないけど、10倍には程遠いね。LLMツールのコストのせいで、雇用コストが10〜15%高くなるなら、それは無視できない数字だよ。生産コストはスループットだけじゃなくて、常に考慮すべきだね。

私がイライラするのは、職場の経営陣が10倍の生産性向上を聞いたことがあることだ。中には職場の初期導入者からの主張もある。私の職場でも似たような状況だけど、内部の初期導入者からの生産性の主張は、非常に狭い測定方法と、かなり怪しい数学に基づいているものばかりだよ。

オープンソースプロジェクトの分析によると、生産性は10%から15%向上するらしいよ…だから、君の言ってることは正しいね。

ただのテクノロジーのハイプ波だと思う。現実は完全な破滅と無限のユートピアの間くらいだろうけど、たぶんそのどちらでもない。AIのことは、2000年代初頭にソフトウェアエンジニアを外注しようとした時の大きな動きに似てる。経営者たちの間でめちゃくちゃ盛り上がってたけど、書類上ではすごく妥当に見えた。でも、ほとんどの取り組みは大失敗に終わって、ほとんどの仕事はアメリカに戻ってきた。ソフトウェアエンジニアがやってる、全体をまとめるための小さなことを無視しがちなんだよね。AIはその辺が欠けてる。外国人がそれを欠いてるわけじゃないけど、言語の壁やタイムゾーンの違い、文化の違いなどが似たような問題を引き起こす。コードの品質や保守性は急降下して、外注先で作られたものの多くはゴミ箱行きになった。今、僕が関わってるコードベースにもAIの雑なものが溜まってきてるのが見える。コードレビューを通り抜けてしまうこういう問題を見つけるのはすごく難しいんだ。差分を見てると、合理的に見えるからね。問題は、見えてない冗長なコードや、高い視点から見ると全く意味がない奇妙な抽象化なんだ。

君の今日の世界に対する見解には同意するけど、たった12ヶ月前(今のベースモデルやClaude Codeのようなコーディングエージェントが出る前)は、コードの一部を書くことで10倍の改善なんてあり得なかったよ。

個人プロジェクトでは、状況によっては簡単に10倍以上速くなることもある。仕事では、数ヶ月先を見越して計画を立てて、5つの異なるチームと協力して、開発中に8回も変わる要件に対して正しいやり方を見つける?PRレビューや他の人が理解できるようにするだけでも大変だよ。時には、たぶんトントンか10-15%の改善に留まることもある。環境によってはうまく機能しないこともあって、AIが本当にうまくいくためには(超高品質なアーキテクチャの計画やデザイン、標準化されたパターンなど)が必要だけど、それは小さなスタートアップや個人プロジェクト以外では実現不可能だよ。正直、エンジニアたちがその超特化した標準化パターンに同意するのさえ大変だし、AIを助けるものは彼らが慣れているものとは違うことが多い。少しでも逸脱するものが出てくると、AIが混乱して10倍の効果が得られなくなる。特に、僕が「10倍」のローカルプロジェクトで行う変更のPRをレビューしてくれる人なんていないし…その基準を維持するのも、サイドプロジェクトではすでに大変だ。AIは自然に逸脱してノイズを生み出すし、それをガイドするシステムを構築するのが課題なんだ(ノイズはさらにノイズを生むから)。結局、バランスを取り直すことが大事だと思う。もし、同じ志を持ったエンジニアが1人か2人いれば、彼らは10倍の効果を得られるだろう。でも、実際の企業環境や、4人以上になると、そんなことは絶対にないと思う。中間管理職やプロジェクト計画にはAIが役立つけどね。

今の仕事がR&D寄りだからかもしれないけど、俺にとってLLMは「思考」の部分でも「コーディング」の部分でも同じくらいの成果を出してくれてるよ。今のところ「コミュニケーション」は自分でなんとかできてるしね。LLMを「思考」タスクに使うのは、20年以上前にウェブ検索をマスターしたときの感覚に似てる。検索エンジンは、何を探しているか分かっていれば情報にアクセスできたけど、今はLLMが何を探しているかを見つける手助けをしてくれて、その上で便利に検索もしてくれる。これで、以前は手間や不確実性から難しいと感じていたタスクが簡単になったよ。今では、ウェブ検索の約1/3をChatGPTでやってるし、もう手放せないと思う。LLMが半端な考えを整理してくれるおかげで、タスクがずっと楽に感じるっていう心理的な面もあって、それだけでも大きな違いがあるね。

コミュニケーションや会議のどれくらいが、従来のコード作成が非常に高価で遅かったからだと思う?将来的にどれくらいの会議が効率化されるか、あるいは完全になくなるか?俺の経験では、ソフトウェアがスケジュール通りに進んでいることや、ちゃんと機能していることを確認するためのプロセスがたくさんあると思う。ソフトウェアライフサイクルが再発明される時が来てるんじゃないかな。

僕がイライラするのは、今働いてる会社の経営陣が10倍の生産性向上を聞いたことだね。これは、ジュニア開発者にとってLLMがシニア開発者ほどの加速剤にならないからかもしれない(ジュニアは良いものと悪いものの区別がつかないし)。だから、1人のシニア開発者に強化されたLLMのワークフローを与えたら、10人のプレLLMジュニアと同じくらい生産的になるのも驚かないよ。もしかしたらそれ以上かも。悪い開発者は実際には負の生産性を生むことがあるから(シニアから盗む)、その場合は無限大になる。普通のジュニアはほとんど低レベルの雑用に制限されていて、LLMはそれをすでにもっと上手くこなせる。要するに、仕事が失われる可能性があるのは理解できる。

AIを使って「全くコーディングせずに」小さなアプリを週末に作って、月曜日にそれを自慢して、エンジニアがタスクに時間がかかることに驚くのは最高だね。

俺は引退したプログラマーなんだけど、ミッションクリティカルな仕事に確率で生成されたコードを信頼するなんて考えられないよ。もし微調整が必要な程度なら理解できるけど、経験がないからね。俺のコメントは、LLMがコーディング以外の分野、例えばブレインストーミングやアイデア出し、リサーチの詳細を埋めたり、考えさせる質問をするのがすごいってことを伝えたいだけ。LLMを思考のパートナーとして扱ってる。間違いもあるけど、他のソースをチェックしたり、別のLLMに結論をレビューさせたりすれば簡単に見つけられるよ。

まあ、君の具体的な経験(現在または過去)については言えないけど、俺はすべてに対して懐疑的だけど、期待を超えてるよ。24時間以内に何かを作ったけど、これが立ち上がるのに数ヶ月かかってたと思う。最も印象的なのは、俺ができることをすべて、ただ速くやってくれること。さらに、俺が絶対にできないこともやってくれて、外注しなきゃいけなかったことを、もっと少ないお金と時間で、他の人とコミュニケーションを取るよりも早くやってくれる。完璧じゃないし、時には本当にイライラすることもある(明示的に言ったのに値をハードコーディングしたり、特定の修正をしたと嘘をついたり)、でも俺にとってはゲームチェンジャーだよ。

俺は40年間プログラミングをしてきて、数ヶ月前からLLMを使い始めたけど、本当に仕事のやり方が変わった。エラーメッセージをログから貼り付けるだけで、1分以内に修正してくれることが多いし、アーキテクチャや新しいソリューションについてブレインストーミングもしてくれる。もちろん、書いたコードはチェックするけど、ほぼ毎日その知性と正確さに驚かされてる。(暗号とは全然違うね。)

LLMが得意だと思うことが一つある。それはデータサイエンス。IOが明確だから、出力が正しいか簡単に確認できる。データの特性を知っていれば、テストを書くように頼むこともできる。ただ、LLMには君が何をしているのかの文脈が必要なんだ。その文脈をチャットで与えるのは難しいことが多い。ここでClaude Codeがゲームを変える。例えば、PCAPファイルがあって、各UDPパケットに複数のメッセージが含まれているとする。IP/ポート/プロトコル/時間をどうやってフィルタリングする?LLMを使って、出力を確認する。パターンA、AB、AAB、ABBを持つパケットの数をどうやって見つける?LLMを使って、出力を確認する。テスト用にそれらのパケットだけを含むPCAPをどうやって作る?LLMを使って、出力を確認する。などなど。コードを読めるから、君が何をしようとしているのかをより良いレートで推測できる。とにかく、「上記のすべての関数のユニットテストを書いてください」と頼めるのは、自己確認を手助けできるってことだ。

「思考パートナー」アプローチをしばらく試してみたけど、一瞬うまくいくと思ったんだ。でも、どこかでほころびが見え始めて、その嘘を見抜いた。LLMは、自分が知っているかのような幻想を作るのが得意だけど、実際には知的な会話を育むのが苦手なんだ。特に新しい分野に挑戦する時、LLMから知識を引き出そうとするのは危険に思える。普通の検索エンジンを使っていれば、情報の信頼性を判断するためにソースのウェブサイトを見ることができるけど、LLMにはそれがない。出力は本当に何でもあり得るし、間違いを見つけるのがそんなに簡単だとは思わない。

僕はLLM懐疑派としてこれを言うよ。すべてのコードは、経験豊富なコーダーが書いたものも含めて、本質的に確率的なんだ。それがあるから、コードレビューやユニットテスト、ペアプログラミング、ガイドラインやガードレールが重要なプロジェクトには必要なんだ。LLMの出力を批判的に使わないなら、それは間違ってるけど、人間の出力を批判的に使わないのも間違ってる。とはいえ、彼らは魔法じゃないし、僕が心配してるのは、人々がコパイロットやエージェントモデルを使って、悪いエンジニアリングプラクティスを隠すことだよ。効率や安全性、長期的に重要なことのためにリファクタリングや再設計をする代わりに、どんどんボイラープレートを作っていくのが心配なんだ。

俺も著者が不満を持ってるのと全く同じ立場だわ。ChatGPTしかなかった頃に始めた非トリビアルなグリーンフィールドプロダクトを出荷したことがあるけど、あの頃は本当にひどかった。ウェブチャットとXCodeの間でコピペしながらClaudeを使い始めたんだ。その後Cursorを見つけたけど、たくさんの面倒なビルドエラーが出た。でも、生産性は少なくとも3倍はあったよ。今はエージェントが良くなってClaude 4も出たから、ほとんどコードを書くことがなくなったし、それでも気にしてない。必要なときは専門知識でエージェントを指導してる。厳しいスタートアップで仕事を始めて数ヶ月経つけど、手でコードを書いたことは一度もない。PRを出す前に自分で全てを監査して、厳密にテストしてるけど、Cursor + Sonnetはそのコードベースで本当にすごい。俺は彼らの最も生産的な従業員だと確信してるけど、それはコードの行数を測ることじゃなくて、コードベースの専門家がニッチなバグの助けを求めてくるから。Claudeのおかげで小さな問題を見つけて修正してたから、フロントエンドの開発者の仕事を奪うのを避けてたけど、彼の足を踏んでしまってた。 vibe codingじゃなくて、リサーチや計画、慎重なステップで進めるプロセスがある。エージェントを成功させるために設定してる。ドメイン知識は必要だけど、誰もが同じ効用を引き出せないのが信じられない。今ではこんな記事が週に2つも出てる感じだね。

NodeでのWeb開発のCRUD?

私は非自明なグリーンフィールド製品を出荷したことがあります。リンクをください。

LLMが出力するコードの質はかなり悪いと思う。何度も繰り返し作業をする羽目になって、結局自分でやった方が早いってことが多い。エージェントが実際に役立つのは、大規模な機械的なリフラクタリングをする時だね。完璧なvimマクロやASTリライトスクリプトを考える代わりに、エージェントを使うことにしてる。

毎日数時間Claude Codeを使ってるけど、あいつは嘘つきだから、使う時は自己責任でね。個人的には、あなたはその体験を美化してると思う。

同じような経験をしてる、ちょっと違う働き方だけど(博士課程の学生)。LLMには非常に懐疑的だったけど、Claude Codeが私の働き方を完全に変えた。_キュレーション_の要件はなくならないし、それは私の役割にしっかり残ってる(部分的には博士課程が教えるべきことだよ!なぜXをやるのか、Yで何を示したいのかを正確に考えること、すべてのステップを分解して、他の人に説明すること -- これは素晴らしいソフトスキルで、今は特に重要だと思う。これらのエージェントは持続的な世界モデルを持っていないし、相互作用のシーケンスの目標をすぐに忘れちゃうからね、賢い圧縮があっても)。もし私が正確なコミュニケーションを心がけているなら、CCを使って計算を整理することができる。これは今まで不可能だったことだよ。プログラミングより簡単ではないけど(質を気にするなら!)、違うやり方で、異なるイディオムがある。

でも僕の生産性は少なくとも3倍だったよ どうやってそれを測るの?

すべてのPRを出す前に自分で監査して、厳密にテストしてる どうやってそんなに早く信頼できないソースのコードを監査するの?LLMはプロジェクト全体を把握してないし、幻覚を起こしやすい。平均的に、君のプロンプトはどれくらいの長さで、LLMはユニットテストも書いてくれるの?

でも君は、ブログ記事が主張していることを全部確認しちゃったね。信じられないことを言ってるのに、証拠を何も共有してくれなかった。身元を隠すために使い捨てアカウントを登録するなんて、君の主張を検証するのを不可能にしてるよ。君のコメントは、俺には冗談みたいに感じる。

厳しいスタートアップで仕事を始めて数ヶ月経つけど、まだ手でコードを書いたことが一度もない。うわ、これかなり退屈そうだね。

「研究や計画、慎重に進めるプロセスがあって、エージェントを成功させるように設定したんだ。」 いい記事とか、あなたのプロセスをシェアしてくれる?本当にこれを上手くやりたいんだけど、エージェントの使い方がイマイチで、正直どこから始めればいいかわからない。クラインのメモリーバンクを試してみたり、もっと考える指示を使ってみたりしたけど、複雑なことをやらせるのができなくて、結局時間の無駄になっちゃってる。

個人的にはこれがよくわからない。世界中の「サービス」業界の仕事の多くは、本当に人間がデータを一つのExcelシートから別のシートに転送する作業に帰着するんだよね(またはCRMやメールからExcelに)。ほとんどすべての企業規模の会社には、毎日この仕事をしている数百人、いや数千人のFTEがいるはず。ソフトウェアエンジニア1人に対して、こういう「手動データパイプライン」をやってる人が100人いるんじゃないかな。だから、LLMから大きな価値を生み出すには、OCamlが得意である必要はないんだ。彼らはただExcelで人間を上回るパフォーマンスを出せればいい。MCPが本当に役立つのは、これらのシステムを簡単に接続できるところで、こういう仕事のエラーは全体の「タスク」をコンテキストで渡そうとすることから来ることが多い。MCPを使ってメールを受け取り、データを抽出してCRMに入れる(またMCPを使って)と、ハルシネーション率は非常に低いと思う。少なくともジュニアの過労な人間レベルだね。この記事のポイントだったかもしれないけど、非決定論はこういう使い方では問題じゃない。関わる人間も非決定論的だから。非決定論的(例えば人間)システムの品質を強化するためのシステムやプロセスを構築できる。最後に、俺は暗号とLLMを密接に追ってきたけど、ユーティリティや採用に関しては似てないように思う。最も近いのはスマートフォンの普及かな。多くの非技術的な友人は、iPhoneが最初に出たときにスマートフォンを欲しいと思わなかったけど、数年後にはみんな持ってる。LLMも似たような感じで、今ではほとんどの非技術的な友人が様々な用途で使ってるよ。

クリプトに例えるのは怠慢な批判だよ。それを検証する価値もない。クリプトからのネガティブな雰囲気を再利用したい人たちのことだ。二つの技術は全く関係ないから、比較技術評価をする理由は明らかにない。でも、社会的な反応は、テクノロジー崇拝のトレンドで、長いこと業界にいるエンジニアたちは疲れてると思う。非現実的な主張は簡単に見つかるし、最悪なのはAI企業のCEOたちから出てくるものだよ。同時に、たくさんの人が実質的にコンピュータに疎い。基本的な自動化にすら限られた接触しかない人たちにとっては、どれだけワクワクすることか想像できるよ。SFで見慣れた「話すコンピュータ」が現実になりつつあるし、その中には様々な意見がある。すごいよ。AIの前に数年間MLとNLPで働いてたけど、今の状況はこれまでのどんな出来事よりも主流になってる。だから、統計的推論を使った設計の経験不足も多いだろうね。しばらくは意見や成功した実装、現実的なプロジェクトアイデアを形成するのが「西部開拓時代」になるだろう。こう考えてみて:今、友達が新しいアプリのアイデアを持っていたら、自分でやれって言われることができる。それは少なくともみんなにとっての勝利だね。

僕の推測では、1人のソフトウェアエンジニアに対して、100人がこの種の「手動データパイプライン」をやっていると思う。これはどんな会社に当てはまるの?500のホワイトカラーの仕事を調査して、すべてを分類してくれる人が本当に欲しい。真に自動化されているものはすでに自動化されてしまったと思う。AIが多くの混乱を引き起こすとは思うけど、ほとんどのホワイトカラーの仕事が「メール仕事」やデータ入力だけだという見方には非常に懐疑的だ。それは僕の経験とは全く合わないし、ここで言われているような過去に囚われた大きな官僚的な会社で働いてきたから。

ちょっと関係あるけど、最近AGI(時々AIも)って言葉の使い方がイライラする。特に科学論文では、もっと明確に定義されてるべきだと思うんだよね。少なくともその論文の中ではさ。だから、AGIが何かの定義を考えればいいのに。そしたら、例えば、あるAIがその定義に当てはまるか論理的に証明できるじゃん。実用的にはあまり役に立たないかもしれないけど、意味のない言葉を使うよりは理論的にはずっと有用だと思う。なんか逃げ道みたいに感じる。ウィキペディアには「ほぼすべての認知タスクで人間の能力に匹敵するか、それを超えるAIの一種」って書いてあるけど、それをどうやって測るの?この特性を持っているシステムが証明できないなら、何の意味があるの?ちょっと愚痴っぽくなっちゃったけど、まあ読めるといいな。

定義はあるよ。「AIはまだやっていないこと。」

みんなが同じ意味で合意する必要はないよ。僕は「AGI」の定義について、もっと緩やかなマイルストーンを持ってるけど、他の人がそれを共有するとは期待してない。僕にとって「クリプト」はまだ暗号技術であって、暗号通貨じゃないから、時には主流が全然違う意見を持つこともある。

これを読むと、著者は議論の不正確さに怒っているように見えるけど、それは本当で、むしろ批判者の方が多いと思う。彼らは日常的に欠陥や限界に対処しなきゃいけないからね。LLMに関するすべてが魔法のような考えだという結論は、ちょっと傲慢に思える。過去5年間で、以前はほぼ手に負えなかった問題が、翻訳や文字起こし、コード生成(ある程度の規模まで)など、完全にまたはほぼ完全に解決されたから。

最近、うちの会社でもLLMを使い始めたんだけど、最初の仕事は2万件の顧客コールを文字起こしして、以下の情報を抽出することだったんだ。1) どの製品と比較されることが多いか 2) ユーザーがソフトウェアに抱える問題 3) ユーザーが最もよく言及するユースケース これまで数週間かかってたリサーチが、数時間で終わったよ。新しい戦略を立てるのに役立ったし、実際にビジネスの価値も生んだ。俺はLLMを自然言語処理エンジンとして見てるし、そこの性能は素晴らしいと思う。確かに過剰に評価する人もいるけど、うちの場合は本当に役立ってるのは事実だよ。「LLMはダメ」っていう記事が多いけど、何が問題なのか分からない。合わないなら次に行けばいいじゃん。誰かに証明する必要なんてないよ。ただのツールなんだから。

過剰評価がもたらすネガティブな影響を過小評価してると思うよ。市場を歪めて、過剰投資を引き起こし、部門を事前に削減させて、決して満たされない期待を生んでる。こういう記事は期待を冷やすために重要だと思う。LLMを売るとき、たいていは顧客サポートのコールを要約することについて話してるんじゃなくて、顧客サポートのスタッフを解雇するアイデアを売ろうとしてるんだよ。

大抵の懐疑的な人や批評家と同じように、俺も毎日これらのツールを使ってる。で、50%の確率で50%の確率でうまくいく。約1年前から仕事でほぼ毎日LLMを使ってて、90%の確率で問題を解決してくれる。AIやLLMに対するこういう不満が真剣に受け止めるべきなのか、あるユーザーの不合理な使い方として片付けるべきなのか、判断が難しいんだよね。例えば、俺はLLMにコードベースを与えて魔法のように動くことを期待したことはない。理解の範囲のギリギリで、直接的で具体的な質問をして、その解決策を意図的にテスト可能な方法で適用してる。もし違うアプローチを取ってLLMに文句を言ってるなら、俺は君が間違ってると思う。実際の魔法を見逃してるんじゃないかな。それは小さくて、役に立ってて、かなり一貫してるんだ。

君のコメントは、記事で著者が指摘しているコメントと同じくらいダメだよ。「90%」も少し怪しいね。

うーん、君は要するに「天気予報士」のセリフ「60%の確率で、いつも成功する」を引用してるんだね。僕も毎日Cursorを使ってGPTやClaudeを使ってるよ。GPT-3は一般的な知識検索にはまあまあいい。Claudeはすぐにダメになるけど、トークンを無駄に使ってる間に、実際の問題に気づかないことが多いんだ。モデルはバカで、バカサバンよりもバカだけど、時々は関連するアイテムにヒットすることもある。自分が何を求めているかを理解して、LLMを農場のラットテリアのように扱えば、うまく活用できるよ。

信頼できる技術者たちが、様々な形の生成AIを使ってプログラミング作業で大幅な改善を報告しているよ。「大幅」とは何か?5%から100%の間だね。無視できない何かだ。少なくとも、GenAIは多くの人にとって有意義なツールであるかもしれないと言えるよ。上記の意見が妥当であるために、CPUの数やコードの行数、処理されたバイト数などを開示する必要はない。

非決定性についてのポイントは、どう機能するかを理解していれば無意味だよ。正確なLLMは、同じ結果が必要な場合には、何度聞いても同じ結果を返すからね。例えば、設計された温度で「2x2は何?」って聞いてみて、返事が5になる確率はどれくらいだと思う?実際、RLで訓練された現代のLLMは、変動がひどくて、アイデアとアイデアの1:1マッピングを主に学習するから、クリエイティブライティングや並列推論/多数決技術にとっては大きな問題なんだ。だから、思っているよりも意味のある「非決定性」は少ないよ。通常、正しい答えを出せるか出せないかのどちらかで、再試行してもあまりうまくいかない。人間の方が現代のLLMよりも非決定性があると思うけど、測るのは不可能だけどね。