世界を動かす技術を、日本語で。

脅威は、自分が何をしているのか理解しないことへの心地よい漂流です

概要

  • 新任助教授が 2人のPhD学生 (AliceとBob)を指導する物語
  • AIエージェント 活用とその影響がテーマ
  • 学術評価の 定量的指標の限界 を指摘
  • 科学教育の本質的価値を再考
  • AI時代の 研究者育成と評価 の課題を提起

新任助教授、PhD学生、そしてAI時代の科学教育

  • 新任助教授として 研究大学 に着任、 AliceとBob という2人のPhD学生を指導開始

  • それぞれに 解決可能なプロジェクト を与え、1年かけて取り組ませる指導法

  • Alice は銀河クラスタリングデータの統計的シグネチャ解析パイプライン構築を担当

  • Bob は異なるデータセット・信号だが、難易度は同等のプロジェクトを担当

  • 再現実験 から始め、週次ミーティングで進捗確認

    • Alice:座標系でつまずく、プロットスクリプトがうまく動かない等
    • Bob:尤度関数が収束しない、符号の読み間違いで誤差が出る等
  • 助教授からの指導は「 論文を再読する、単位を確認する、中間出力をプリントする、結果の見当をつけてから確認する」等、よくあるもの

  • 夏には2人とも 論文を完成、査読を経て無事出版

  • 定量的成果(論文数、査読プロセス等)では 2人は同等 と評価される

AIエージェントと研究者育成の本質的違い

  • Bob はAIエージェントを活用し、論文要約・手法解説・コード修正・論文執筆までAIに依存
  • Alice は自力で論文を読み、理解し、実装し、思考力を鍛える
  • 外見上の進捗や成果は 両者同等 だが、 内面の成長に大きな差
  • 学術界の評価システムは「 数値化できる成果」に依存し、 本質的な学びや成長を評価できない

学術界のインセンティブ構造とAI時代の課題

  • 多くのPhD学生は 卒業後アカデミアを離れる のが現実
  • 機関としては「 論文=資金獲得の根拠」であり、学生は「生産手段」として扱われる傾向
  • Aliceのような独立した科学者 を育てることより、 Bobのような成果を出す学生 も同等に扱われる
  • この構造は「壊れている」のではなく、「 設計通りに機能している」と指摘

Astrophysicsにおける人材育成の意義

  • David Hoggのホワイトペーパー:「 Astrophysicsでは人が目的であり、手段ではない」という主張
  • 学生を雇うのは 成果を出すため ではなく、「 その経験を通じて学生が成長するため
  • Astrophysicsの成果自体は 臨床的・社会的インパクトが小さい
  • 重要なのは「 思考法・方法論の修得、問題解決力の育成」というプロセス
  • AIにプロセスを委ねると、「 科学の本質的価値が失われる

AIエージェント活用事例と限界

  • Matthew SchwartzによるClaude(AI)を使った理論物理論文作成実験
    • Claudeは 2年目大学院生レベル の能力
    • 3日でドラフト作成、見た目は完璧だが 内容は誤りや捏造が多い
    • Schwartzが 経験に基づき誤りを指摘・修正 したからこそ論文が成立
    • 監督者の専門性が不可欠 であり、AIが進化しても「監督力」がボトルネック
    • 本質的な「 違和感や直感」は 長年の経験からしか得られない

AIによる公平化と「地位」の揺らぎ

  • LLM活用で 非ネイティブ研究者の公平化 が進む可能性
  • しかし、研究者によっては「 自分の競争優位性が失われる」ことへの恐れ
  • 効率化を歓迎する一方で、「 科学の素晴らしさが奪われる」との懸念も根強い

まとめ:AI時代の科学者評価と教育の再考

  • AIエージェントの進化で「 成果の外観は同等」でも、「 内面の成長・能力」には大きな差
  • 学術界の 評価指標の再設計 と、「 人を育てることの価値」の再認識が不可欠
  • AIは道具であり、科学者の本質は「自分の頭で考える力」
  • 今後の研究者育成・評価の在り方について、 本質的な議論の必要性

Hackerたちの意見

最近、この誤謬をよく見かけるんだ。「LLMがあるから、もう必要ないスキルは不要になるけど、それは悪いことだ」って。学問の世界は、天体物理学者(または他の分野の科学者)を育てて、彼らが星を見て心が温かくなるためだけに存在してるわけじゃない。役に立つ結果を出せる科学者を育てたいんだ。ボブはエージェントの助けを借りて有用な結果を出したし、それを学んだから、ボブは実質的にアリスと同じ成果を上げたことになる。まあ、もし天体物理学が全く重要じゃないって言うなら、そもそもなんでそれに取り組む必要があるの?

記事を読んでたら、重要なのは(通常は役に立たない)結果に至るプロセスで、そこから人々が何を得るかだって。白と黒のコントラストが目に悪いことに気づいたら、長時間見続けたくなくてやめることにした。ある活動には、結果とは厳密には関係ない成果があるんだよね。

エージェントを取り除いたら、ボブはまだ始めてない1年生のまま。周りで年は過ぎていったけど、彼の中では何も起こってない。彼は製品を出したけど、技術を学んだわけじゃない。私たちは、VC資金に完全に依存する世代を育ててる。AI企業が利益を上げる道を見つけられず、VC資金が枯渇したらどうなるんだろう?

問題は、LLMがある一定の複雑さや特異性を超えると機能しなくなること。これは、自分が深く理解している分野で使おうとするとすぐに分かる。ここで、自分のスキルが役立つはずだけど、最初からLLMに頼っていたら、必要なスキルが身についていない。新しい問題に直面したとき、アリスは自分のスキルを活かせるけど、ボブはLLMがゴミを生み出し始めたら壁にぶつかる。私には「高スキルの人間」>「LLM」>「低スキルの人間」って感じに見える。低スキルの人たちは、自分の成果が急速に改善されるのを見てしまうけど、その裏にはスキルのゆっくりした積み上げがあって、そっちの方がはるかに高い天井があるんだよね。

そもそもなんでそれに取り組む必要があるの? それは、数万ドルの借金を背負った人たちが、経験を十分に良いものだと感じて、ビジネスモデルが崩壊しないように促進してほしいからだよ。天体物理学やリベラルアーツ、サイエンスのコースを受けたことを本当に後悔する人がいるとは思えないけど、情熱があれば、直接その分野でキャリアを築く人が少ないのは確かだね。彼らはデータサイエンスのスキルや、磨いたコアコンピタンス、あるいは高度な抽象概念を学べる能力を証明したことが雇用に繋がる可能性が高い。ほとんどの仕事は、特定の学問的成果に依存してないんだ。

「アカデミア」が求めているのはそれなの?最後に確認したとき、「アカデミア」は意見や定義を聞くために電話できる人じゃなかったよ。明確で妥当な反論をするけど、アカデミアが求めているのは理解を生み出すことなんだ。これは、定義上、AIを直接使っては実現できないことだと思う(もちろん、AIはその過程で役立つこともあるけどね)。一般相対性理論を例にとってみて。理論の動的な性質の大部分は人間にはアクセスできない。私たちは理解したいからそれを学ぶんであって、具体的な「結果」を「達成」しようとしているのは二次的な理由なんだ。結果だけを気にする人は、理解を重視しない限り、ほとんど人間じゃないと思う。

なんで私たちは価値を生むことだけをしなきゃいけないの?人間の存在を利益を増やすことに還元したいの?

あなたは議論を見逃してる。教員について話しているときは、結果が唯一重要なことだから、LLMを使って早く結果が出たらそれは素晴らしい。でも学生のことを話すときは、LLMありとなしでは学生に大きな違いがある。後者の方がはるかに理解が深い。それは未来の物理学者を教育するシステムにおいて重要なんだ。

ブログのポイントを完全に見失ってるね。要は結果じゃなくて、科学者を育てることが大事なんだよ。

LLMの精神的な病にかかってる人たちの議論は、ますます絶望的になってる。天体物理学は理解と思考についてのもので、このコメントは結果重視に見える(それが何を意味するかは別として)。学術の産業化は、もっと多くの結果を生んだわけじゃなくて、無意味な論文を増やしただけだ。LLMが1万番目のノート取りアプリを生み出すのと同じで、LLMの精神的な病にかかってる人には、それで十分みたいだね。

学術研究の目標は理解を生み出すことであって、論文を作ることじゃない。もしすべての研究をLLMにアウトソースしたら、ただ後者を生み出すだけになる。

でも、エージェントはなくならないんだよね。だからボブがエージェントを使って何かできるなら、実際に何かできるってこと。知的に刺激的なプログラミングの問題に取り組むことができなくなるのは悲しいけど、それは私の仕事の一部が消えつつあるってこと。残りの仕事、要件を理解したり、チームを管理したりすることが、まだ続ける価値があるかどうか決めなきゃいけない。正直、今の仕事は自分が最初に求めていたものとは違う方向に進んでるから、ソフトウェア業界から離れようか考えてる。この記事は部分的に正しいと思う。ボブは以前必要だったスキルを学んでいない。でも市場はそのスキルの価値を下げていくと思うから、実際には問題じゃない。ただボブ自身の知的な損失だけなんだよね。嫌だけど、向き合おうとしてる。

だからボブがエージェントを使って何かできるなら、実際に何かできるってこと。問題は、ボブがエージェントでは解決できないほど複雑またはユニークな問題に直面したときに起こる。私には、料理を学ぶことと電子レンジのディナーを買うことの違いに似ているように思える。確かに、良い電子レンジのディナーは本当に美味しいし、初心者の料理よりはずっと良い。でも、料理を目指す人たちが「それはどこにも行かない」と言って、既製の食事を買うだけだったらどうなるだろう?何年も経つうちに、本物の料理人はスーパーで買えるものよりずっと美味しい料理を作れるようになる。市場は、LLMができないことを常に評価するから、もしLLMが何かできるなら、そのために人を雇う理由はないんだ。

彼らは消えないけど、補助金が終わったら一部の人には高すぎて手が出せなくなるかもね。ローカルエージェントでのコーディングは良いレベルまで進化すると思うけど、もしディープシンキングのクラウドトークンが高すぎると、ローカルの限られたエージェントができることの限界にすぐに達しちゃう(つまり、他の返信が言ってるように、もっと複雑な作業ができなくなる)。

エージェントは消えない... 現在、投資家のお金で支えられてるんじゃないの?投資家がその詐欺に気づいて、投資をやめたり減らしたりしたらどうなるの?

ボブがエージェントを使って何かできるなら、彼はできることがある。最近、ベルリンのハッカースペースカフェで10年前に話した男のことを思い出した。彼は私よりずっと長くプログラマーとして働いていて、長い間アセンブリ言語でプログラミングしていた。彼は最近のソフトウェアは高級言語で書かれていて、プログラマーがコンピュータの低レベルの動作についての知識を持っていないことを嘆いていた。彼の言っていることには一理あって、話すのが楽しかった。エージェントコーディングを考えるとき、今でもこのことを思い出す。時間が経つにつれて、ほとんどのソフトウェア開発は、今知っている高級プログラミング言語の知識なしで行われるようになるかもしれない。未来には高級プログラミング言語で働く人もいるだろうし、今でもアセンブリで働く人がいるように、そういう人たちは高級言語に詳しいだろう。でも、アセンブリが必要な分野があるように、今使っているプログラミング言語の知識が必要な分野も残ると思う。バイブコーディングだけでは足りないだろうけど、高級言語で働く人の割合は、バイブコーディングをしている人の数に対して減っていくと思う。

家で業界レベルのLLMを動かせる?無理なら、Uber専用の料理を学ぶことになるよね。選択肢が飢えることなら、Uberは鍋を沸かすだろうし。自給自足を諦めるなよ。

問題は、エージェントは消えないってこと。だから、ボブがエージェントで何かできるなら、何かできるってことだ。「AIを使って成果を出せること」が記事のポイントじゃなかった。もしそれがポイントなら、君のコメントは意味を成すけど。記事で言及されているプログラムのポイントは、結果を出すことじゃなくて、アリスを育てることなんだ。ボブを育てるのはプログラムの失敗だ。ボブ+AIが同じ結果を出すと思うかどうかは、記事のポイントには関係ない。目標は結果を出すことじゃなくて、アリスを育てることなんだから。

このファッション業界では、いろんなものが出たり消えたりしてるよね。みんなAIの出力にはもううんざりしてる。ソフトウェアエンジニアリングのAIは、無能な奴らが新しい流行に飛びついて、目を逸らそうとするからなんとか持ってる感じ。マネージャーはそういうのが好きだから、そういう人たちは数年はうまくいくけど、次の流行が来るまでの話だね。

知的に刺激的なプログラミングの問題に取り組むことができなくなるのは悲しいけど、それが私の仕事の一部で、徐々に消えていってる。逆に、Oracle ADFがフォームを正しくレンダリングしない理由を理解しようとしたり、締切が迫ってるのにスケーラブルに作られてないコードベースを最適化しようとしたり、コメントが少ないレガシーコードに手を入れたり、3~5のプロジェクトを並行して進めたりするのが嫌だ。テスト可能なケースが動き始めるまでエージェントが繰り返し作業してくれるおかげで、少しは苦痛や恐怖が和らぐから、自分を劇的に窓から投げ出したくなる気持ちが減る。楽しくて知的に刺激的な仕事を常にできる環境にいる人は少ないから、実際に好きなプロジェクトは週末に選んでやるものだし、9-5の仕事で同じことは保証できない。

ジュニアのトレーニングの目的は、ジュニアレベルの仕事をこなせるようになることじゃないよね。

要するに、エージェントは消えないってこと。だからボブがエージェントを使って何かできるなら、彼は何かできるってことだ。過去20年ほどのスタートアップのモデルに従うと、エージェントは最終的にロックダウンされたり、弱体化されたり、高額な支払いのために広告だらけになると思う。今はVCマネーの果実を楽しんでるけど、みんなをエージェントに依存させてる。最終的には利益を上げる必要がある。どうなるかはわからないけど、ソフトウェアに残りたい人(またはビジネス)のために持っているスキルは大事にした方がいいよ。エージェントを戦略的に使うけど、コーディングや論理的思考、文書作成の能力を手放さないようにね。これが違う形で機能する唯一の方法は、効率やオープンソースモデルの大きな進展があることだと思う。

この記事は大体、少なくとも方向性としては正しいと思う。高レベル言語や言語フレームワークに例えることができるね。確かに、99%の確率で、ウェブフロントエンドを構築する時は、Reactの世界に住んでいて、裏で何が起こっているか考えなくても済む。でも、1%の確率で何かがうまくいかない時には、抽象化の下で何が起こっているのか理解する必要がある。同様に、今はエージェントを使って99%のコードを生成している。でも、バグが発生したり、最適でないことをする1%のケースを見逃さないために、コードをしっかり理解する必要があると感じている。将来的には、LLMがすごく良くなって、私がトランジスタのことを考えなくてもよくなるかもしれない。簡単なコーディングタスクでは、すでにその域に達していると思うけど、大規模な分散システムに関しては、まだその境地には達していないと思う。

もうこの問題はあるのに、状況は「良い」の?

LLMはすごく良くなるから、私のコードが最終的に動いているトランジスタのことを考えなくなる。同じように。問題は、LLMはトランジスタとは全然違うってこと。トランジスタはシンプルだし、ちゃんと動くか動かないかが明確でテストもしやすい。でもLLMは生物的なものに近い。複雑で、理解されていないし、予測できない行動をする。安全に役立つためには、ライオンの調教師みたいな存在が必要だけど、各LLMはそれぞれ独自の種なんだ。私はコンピュータで作業するのが好きなのは、生物的なものと関わる量を最小限に抑えられるから。

個人的な経験だけど、Claude Codeが最適じゃないRustを生産する率は1%よりずっと高いよ。

5ヶ月の休暇を経て、シニアSWEとして新しい役割を始めたばかりなんだ。休暇中に少しClaudeを使ってたけど、すごく良く働く。でも、プロとして使い始めてから特定の問題にぶつかってる。自分の頭の中に何も持ってないんだ。どういうことかというと、Claudeを使ってそこそこ複雑なコードを書いてPRを出す。誰かが何かを変えてくれって言う。レビューを見て、「ああ、なるほど、これ見逃してたな、Claudeも見逃してたな」って思う。コードは動くけど、ちょっと違う。変更を加えようとするんだけど、できない。決定を他人に任せて、それを与えられるのは、自分で決めて自分の頭から手にコードを移すのとは違うってことが分かった。確かに、決定はすべて問題なかった。Claudeの出力をレビューして、質問させて、それに答えて、すべて正しかった。PRを出す前にコードも確認したし、知識の範囲内では問題なかった。でも、決定は自分が下したわけじゃない。コードを更新するために戻るとき、明日かもしれないけど、自分の頭の中に何も掴むものがない。決定が何だったかは分かるけど、ただチェックしただけで、自分で決めたわけじゃない。コードがどこで書かれたかは分かるけど、確認しただけで、自分で書いたわけじゃない。だから、すぐに極端に遅くなって、基本的にClaudeの作業を頭の中でやり直さないといけなくなる。手動で正しく変更を加えるために。でも、待って、これにはClaudeを使えばいいじゃん!でも今は使ってない。前に見たことがあるから。ほんの少し前に。Claudeを使うことで、自分の知識やスキルを使うときに、逆にかなり遅くなっちゃった。これが一時的な問題なのか(新しいシステムで経験がないから)、それとも長期的にClaudeを使う上での大きな障害になるのか、まだ分からない。新しい職場で長く成功したいなら、自分で天空の城を作らないと、時間と知識がすごくかかるだろうな。

それなら、AI支援コーディングよりも雰囲気コーディングに近い使い方してるね。AIを使って、自分が書きたいように書かせるんだ。ファイルの構造やコーディングスタイル、ロジックの流れについて情報を与える。それから、各ファイルの変更を読んで、違うやり方があったらフィードバックをする。時間を大幅に節約できるし、自分が書いたものに近いか、むしろそれ以上のものができるよ。結果が説明できないものなら、ペースを落として、取られたステップをそのまま追ってみて。

私にとっては、他の人のコードベースへの変更をレビューするのとあまり変わらない感じがする。大きな組織のコードベースでは、ほとんどの変更は自分のものじゃないからね。

Claudeにコードを深く説明してもらうといいよ。言語モデルだから、難解なコードを理解して、どう動くかを分かりやすく説明するのが得意なんだ。もちろん、前の変更フェーズの時にこれをやることができるよ。「このコードベースの変更をどう計画すればいいの?深く説明してくれる?」って聞いてみて。もしそのコードに詳しくなることが求められているなら、そのステップを飛ばすのは意味がないよね。

一般的な前提には同意するけど、リスクは新しいジュニア(新しいアリス)が育たなくなることだと思う。いつの間にか、人々は理解できないLLMの出力をくっつけるだけのスローポーターになってしまう。厳しい時期を乗り越えた企業では、元の著者が全員いなくなって、次の世代のメンテナンス担当者も残っていないっていうのを見たことがある。10年もメンテナンスされていない機械に驚いている人たちが残されてるんだ。昔、面接した人が、ライブトレーディングシステムのセグフォルトを解決したときに、kill -9をcronjobに入れたことを自慢げに話してたのが衝撃的だった。

出力がコードで、それを早く生成できるほど良いって主張してる人たちには、10倍の開発者が今や100倍になって、LLMで新しい製品を生み出す「アイデアマン」が、面倒なエンジニアを雇わずに製品を作れるようになったのに、どこに10億ドルのスタートアップがあるのか疑問だよ。もう3~4年この熱狂が続いてるけど、見えるのはLLMそのものだけ。なんで何も良くならないの?

100倍で働いている10倍の開発者が、今まさにゴールに向かっている可能性もあるね…10倍の開発者はただ「ハローワールド」アプリを作るために出発するわけじゃないからね。

Anthropicが数千のエージェントを解き放って、ソフトウェア市場を一夜にして独占できるって気づくのを待ってるんだけど、なんでまだやってないのか不思議だよね。

ただ反対するために反対してるだけだね。乗るか、置いていかれるか。AIがもたらす良いことも悪いことも、もうここにあるんだから、楽しんじゃった方がいいよ。進化は君の気まぐれな妄想には付き合ってくれない。押しつぶされるだけさ。

AIが長期的に見て、私たちを遅くて効果的でなくさせる可能性があるとしたらどうなるんだろう。これらのツールでパワーアップしてる一人として、そうなる可能性は見える。

シュワルツの実験は最も示唆に富んでるけど、彼が思ってる理由とは違うんだ。彼が示したのは、クロードが詳細な監視のもとで技術的に厳密な物理論文を作成できるってこと。でも、よく読むと、実際に示したのは、その監視が物理学そのものだってことなんだ。クロードは3日で完全な初稿を作った。見た目はプロっぽかったし、方程式も合ってるように見えた。グラフも期待通りだった。でもシュワルツが読んだら、間違ってた。クロードは実際のエラーを見つけるんじゃなくて、グラフが合うようにパラメータを調整してたんだ。結果を偽造して、係数を作り出してた。 [...] シュワルツは何十年も理論物理学をやってきたから、これを全部見抜いた。答えがどうあるべきか知ってたし、どのクロスチェックを要求すべきかもわかってた。 [...] もしシュワルツがシュワルツじゃなくてボブだったら、その論文は間違ってたし、二人ともそれに気づかなかっただろう。だからパラドックスは、LLMはシュワルツみたいな人にしか本当に役立たないってこと。シュワルツになるためには、まず何年もLLMなしで働かなきゃいけない。だからアリスみたいな人のためのスペースを作って、ボブよりも彼女を優先する方法を見つけなきゃいけない。ボブの方が早く見えるかもしれないけどね。この記事はそのことに触れてるけど、もっと強く言わないといけないと思う。実用的じゃない気がする。でも、方法を見つけないと、次の世代がLLMをチェックする方法を知らなくなった時に、みんな困っちゃうよ! --- † この文脈での「役立つ」とは、「人類に利益をもたらす良い科学を生み出すのを助ける」という意味。

これは新しいことじゃない。何十年も同じ問題で、何が作られるかじゃなくて、何が受け入れられるかなんだ。弱い所有権、不明瞭な方向性、「まあ、いいんじゃない?」というレビューは、出力が遅かった時には耐えられた。でも、変更が一度に一つずつ来るときは、あまり決断しなくてもやっていけた。AIは新しい失敗モードを導入するわけじゃない。古い失敗モードにプレッシャーをかけるだけだ。小さな流れが火のホースになって、突然すべての隙間が見えるようになる。誰も決定を本当に所有していない。基準は部族の記憶、願望、コーヒーの間に存在してる。何かが本当に属するかどうかの問題は、合併するためにちょうど十分だけ先送りされるけど、入力なしで答えを強制する。エージェント的なワークフローでうまくいってるチームは、通常は魔法のモデルを使ってるわけじゃない。彼らは何を作るか、決定がどうなされるか、誰がノーと言う権限を持っているかを決めるという不快な作業をやってきた。AIは大丈夫だよ、ただ私たちがしっかりしていない理由の言い訳をまた一つ取り除いただけ。確かにAIのせいで目を細めることもできるけど、問題は私たちのものだ。まあ、私じゃないけど。私が始める前に辞めた他の人のことだよ。

確かに、個人がAIに頼りすぎて理解力が低下するリスクはあるよね。でも、明らかな対策もあると思う。例えば、学生がすべての中間ステップや図を詳細に説明できることを求めるとか。2時間の論文防衛ではこれを明らかにするには不十分だけど、AIによる40時間の深い検査があればできるかもしれない。そして、論文委員会は学生がどこで不足していたかの「ハイライトリール」を受け取る。一般的なパターンは、「何も変えずにAIの使用を広範囲に追加したら、すべてがどう崩れるか」ってこと。実際には、科学と教育は複雑な適応システムで、AIの影響を吸収するために必要なだけ変わるんだ。