世界を動かす技術を、日本語で。

スタンフォード大学法学部の研究でAIが法学教授を上回る

概要

  • Stanford Law SchoolのJulian Nyarko教授らによる研究で、法学教授はAI生成の回答を他教授の回答より高く評価
  • 契約法の質問に対し、AIは75%のケースで人間の回答より優れているとされた
  • AI回答は教育的に有害とされる割合も人間より低い
  • 法学のような判断力を要する分野でもAIが有効なチューターとなる可能性を示唆
  • AI活用の具体的な導入方法は今後の課題

スタンフォード法科大学院の研究:法学教授はAI回答を高評価

  • Stanford Law Schoolの Julian Nyarko教授 主導による画期的な研究
  • 米国の16名の法学教授が参加し、 契約法 に関する学生の質問に対するAIと人間の回答を比較評価
  • 約3,000件の匿名比較で、 AI回答が75%の割合で人間の回答より高評価
  • AIは複雑な法的判断や推論を要する質問にも対応可能であることを実証

研究の意義と方法

  • 法学のように 正解が一つでない分野 でAIの能力を検証
  • 40の代表的な契約法の質問を作成、教授自身が回答し、AIと比較
  • 評価時は回答者の正体を伏せた ブラインド方式 を採用
  • AI回答が教育的に有害とされた割合は 3.5%、人間回答は 12%
  • AIシステムは最も優秀な人間講師と同等のパフォーマンス

AIの教育的有用性と今後の課題

  • AIチューターは 質の高いオンデマンドサポート を提供し、法学教育の補完役となる可能性
  • GoogleのNotebookLMなど、複数のAIモデルの性能を比較
  • 一部のAI回答で文脈不足が見られたが、それでも教授陣はAIを好む傾向
  • 法科大学院はAI導入に慎重な姿勢もあり、 批判的思考力の低下誤情報 への懸念も存在
  • AI導入の最適な方法は今後の検討課題

liftlabとStanford Law Schoolの紹介

  • liftlab は法学分野におけるAI研究・プロトタイピング・産業連携を推進
  • AIや先端技術を活用し、 質の高い法的サービスへのアクセス拡大 を目指す
  • Stanford Law Schoolは 世界有数の法科大学院 として、学際的教育・実務経験・国際的視野・公共奉仕に注力

今後の展望

  • AIが法学教育に与える影響の議論は 「AIの質」から「責任ある活用方法」へ シフトすべき
  • Nyarko教授「AIチューターの全面導入を推奨するものではないが、 一律な懐疑論も根拠薄弱
  • 今後は学生の学習効果を最大化する AI活用法の設計 が重要課題

Hackerたちの意見

ソフトウェアエンジニアとして、エージェントにどのタスクを任せるべきか、リスクについての直感はあるんだけど、AIに法律文書を作成させるときに何がうまくいかないかについては、あまり直感が働かないんだよね。例えば遺言書の作成は無害に思えるけど、実際はどうなんだろう?私たちの法律システムは、トラブルの元が多いことで有名だからね。

これは多くの専門職に当てはまると思う。AIは、そのスキルや職業に既に詳しい人が使うのが一番効果的だよね。私がシステム管理者としてググるのと、経理のジェーンがやるのを比べると分かりやすい。技術に詳しくないユーザーは、問題を悪化させたり、広告だらけの結果から怪しいものをインストールしたりする可能性が高い。重要な法律文書をAIで作成するのは、弁護士のアドバイスなしでは信頼できないし、弁護士にAIを使ってコードを書いてもらうのもあまり頼りたくないな。

LLMはフットガンを避けるのが得意だと思ってたんだけど。これは、よく知られたルールや落とし穴のリストがあって、弁護士の仕事はそれを事実のパターンに適用することなんだよね。事実のパターンは似てるけど違うから、自動化するのが難しいんだけど、LLMは異なる事実のパターンに一般的な原則を適用するのが得意みたい。

クロードがベンチで不正をするから、法律の分野ではどうなるか心配だな。

遺言書の作成は無害とは思わないな。もしうまくいかなかったら、相続人が大変な頭痛に悩まされることになって、数ヶ月や数年の遺産分割手続きに巻き込まれるかもしれない。

今のところの私の経験(弁護士とソフトウェアエンジニアの両方として)では、コードや法的文書を作成する際のLLMのエラー率はかなり似ているけど、法的文書の方が問題が多いんだ。法的文書にはコードにあるような構造的な安全策がないからね。法的文書には自動テストも静的型付けもテスト環境もログ記録も観測機器もサンドボックスもない。ドラフトから「デプロイ」までのタイムラグも、効果的で高価なデバッグループを作る要因になっている。コードは数秒で本番環境にデプロイできて、エラーがログに表示されたらすぐにデバッグを始められるけど、契約書や裁判所の提出書類のエラーが見つかるまでには最低でも数日、時には数年かかることもある。その時点でエラーは修正不可能なことが多いから、エラーは発見も解決も難しいし、誤りの結果はしばしば大きい。法的なエラーは誰かの命や自由、重要な財産を危険にさらすことがあるからね。もちろん、特定の安全クリティカルなシステムのバグは法的ミスよりも悪いこともあるけど、一般的にはほとんどのソフトウェアは法的文書よりリスクが低い。逆に、LLMは法的文書の基本的なスタイルや構造についてはコードよりも良い仕事をしているように見える。IRACフォーマットに従ったり、法律の主張を引用したり(幻覚の問題は残るけど)、分かりやすい文を書いたりね。これはコードにおける良いコメントや一貫したデザインパターンの使用、テストカバレッジ、明確な変数名、DRYなどのベストプラクティスに相当する。これらの質的な指標でのパフォーマンスが良いのは、法的文書が通常、構造がシンプルでテキストの行数が少ないからかもしれないし、LLMが自然言語テキストで訓練されているからかもしれない。あるいは自然言語はコードよりも寛容で、言葉や文法の小さな違いが文書の解釈に大きな影響を与えないからかもしれない。一方、コードでは一文字のエラーが大きな影響を及ぼすことがあるからね。

これはAIがコードを書くことに対する完璧なアナロジーだと思う。遺言を作成するのは大したことないように見えるけど、その遺言が「十分良い」と受け入れられて、裁判で問題になると大変なことになるんだよね。

いくつかのことは無害に見えるけど、たとえば遺言書の作成。遺言書がAIによってめちゃくちゃになった場合、遺産の執行者として対処しなきゃならないのは全然無害じゃないよ。俺はこの春、父の遺産を扱ったけど、シンプルな遺産でもフラストレーションと混乱の連続だった。

だから、大学卒業生がAIの終末にどうやって生き残るのか見えないんだよね。ドメインの専門家がLLMを駆使するのは超強力だけど、彼らはミスを見つけられるから。ジュニアはその洞察がないから、LLMが彼らの生産性を下げることになる。

遺言書の作成。そういう文書は、最終的に亡くなる人には違いがないかもしれないけど、アメリカのように王朝作りに最適化された国では、次の世代の人生を左右することがあるんだよね。

一般的なLLM AI(普通のClaudeやGPTなど)を使って、法律文書を作成するのにかなり頼ってるよ。一番の罠は、幻の引用だね。まるで本物のような引用を、他のケースから挿入してくるんだ。それが、君が言いたいことを完璧に証明する引用だったりして、名前も本物っぽく作り上げる。例えば、United States v. Shenzhou Electronics Incとかね。何回か出力をチェックして、間違った引用がないと安心しちゃうけど、次の動議を書くときにいきなり3つも入れてくることがある。LLMを使ってリサーチしてない弁護士は、時代に取り残されてるよ。自分では絶対見つけられないニッチなケースを見つけるのがすごく得意だから。以前は、正確な検索語の一致が多かったけど、それは法律リサーチにはあまり役に立たなかった。もっとあいまいな用語で検索できるものが必要なんだけど、AIはそれが得意なんだ。結果を見てみて。Lexis NexisやWestlawのLLMは、一般的なものよりも多分優れてると思う。LLMは素晴らしいパラリーガルになるよ。法律関係の仕事をしてるなら、アイデアを出すためだけでも使うべきだよ。悪魔の弁護人みたいに使ってみて。友達はいつも相手方の弁護士役をさせて、反論がどうなるかを見てる。ソフトウェア開発と同じだね。自分が作ってるものに気を使うなら、出力をチェックしなきゃ。

私の予想では、ジェミニは質問がテストされる教科書でトレーニングされているから、その質問や関連する質問を明示的に思い出すのが得意なんじゃないかな。これは、論文の方法から見ると、かなり限られた入門コースだね。

それに、研究はスタンフォードのHAI研究所によって行われていて、明らかにバイアスがあるし、論文には利害関係の声明が欠けているのが奇妙だね。追記:GoogleがHAIの主要な寄付者だと分かった。だから、この研究は少なくとも部分的にはGoogleに資金提供されている。これが、著者たちが利害関係の不開示をしている理由かもしれないね。

LLMができないのは、交差尋問されたときに自分が言ったことの理由を説明することだね。ただ、誰かが言ったことの理由を適当に作り上げるだけで、他の誰かが言ったことの理由も同じように推測することができる。『でも、なんでそれを言ったの?』って質問しても、彼らが言ったことの根拠を明示することにはつながらず、ただ新しい複雑な発言をするだけなんだ。

人間には、表現される思考を枠組みする動機があるけど、LLMは質問に対する「新たな」思考を生み出すんだよね。

人間にも同じことが言えると思う。会話の中で、私たちはしばしば本能的に反応して、後から理由を考えることが多い。もっと考えた思考の場合、運が良ければ「推論の痕跡」を思い出せるけど、それが私たちの内省の限界だよね。神経科学者じゃなければ、自分がどれだけのニューロンを持っているかすら分からないし、それがどうやって思考を生み出すかなんて理解できない。動機づけられた推論は内省をさらに妨げて、誠実さやコミュニケーションのエラーが残された限られた情報をお互いに伝えるのを難しくする。モデルの解釈可能性に関する研究はかなり進んでいる。もしかしたら、AIの意思決定を人間の脳よりも上手く説明できるかもしれないね。

LLMは幻覚を見ちゃうんだよね、だって人間も幻覚を見るから。LLMにソースを注釈するように聞くと、論理を模倣するパターンマッチングが大幅に向上するんだ。人間と同じようにね。「なんでこれを言ったの?」って質問には理解できるけど、他の聞き方だとLLMの過剰反応を引き起こさないこともあるのを見たことがある。

これは単純なケースでは真実だよ。ただ、LLMには、結論を支える主張の構造を持続させるデータ構造に完成を固定するコンテキスト構築技術がある。いろんなパターンが存在するけど、私が一番好きなのは、原子主張の関係をグラフのエッジとしてモデル化する「主張依存グラフ」っていうもの。これらの構造に対して行える操作のスイートがあって、「この結論に至った経緯を再構築する」もその一つなんだ。

スタンフォード法学部がこんな大げさなプレスリリースのタイトルに同意するなんて驚きだよ。「一般的な1年生の契約法の質問に対して、法学教授は教授が生成した回答よりもAI生成の回答を好んだ」っていうのはどう?

修正されたタイトルは的を射てるね。学者たちが、まるでトップ研究所のCEOみたいに、過剰な主張で評価を上げようとしてるのが不思議だわ。

この研究はちょっと怪しいと思う。もっと深く掘り下げる必要があるけど、誰が読んでも警鐘が鳴るべきだと思う。図2(6ページ)は問題を叫んでる。教授はたった16人(それぞれ3000回の比較?!)で、教授たちの結果もバラバラ。これは非常に高いばらつきを示していて、研究には意味のある統計的な力がないことを示唆してる。可哀想な教授16は全然運がないね(笑)。主要な結果にGoogleのモデルしか出てこないのも明らかなバイアスだよ。他のモデルもどこかには出てるのに、なんでそこにはないの?私は弁護士じゃないけど、かなりの統計の知識があるから、この論文には何か臭いがするって自信を持って言えるよ。完全にクソとは言えないけど、赤信号がたくさんある。

この研究はスタンフォードのHAI研究所によって行われたんだけど、Googleからの資金提供がかなりあるみたい(どれくらいかはわからないけど、彼らは寄付を公表してないからね。多分かなりの額だと思う)。それに、著者たちは論文の最後で利害の対立を宣言していなかった。

論文によると、教授たちはそれぞれ中央値で200の比較を持っているらしい。さらに、2つのモデルしか使わなかったのは、もっとモデルを使うと比較が増えるからで、教育に特化していると宣伝されているGoogleのモデルを選んだみたい。別のモデルが出てくるのは、主なアイデアを他のモデルに拡張したからで、LLMを使って判断する代わりに人間の教授を使ったからだよ。

意味があるかどうかは別として(論文全体がちょっと怪しいかもしれないし)、インストラクター3と8が最も低い有害度を持っているのが興味深い。LLMよりもかなり低いけど、好まれる率は最高ではない。有害度と好まれる率は逆相関しているけど、完全ではないみたい。プロの選択にもカリスマ性が影響しているのかな?

君の3kの数字はここから来てると思うよ。説明されてるね:> 教授たちは、2,918件の盲目的な強制選択比較を行った(中央値:200件/裁判官)。その際、講師またはLLMからの2つの匿名の回答のうち、どちらを学生に渡したいかを示した。

でも、本当に重要なのかな?AIが教授よりも優れているのは明らかだと思う。研究が進む中で、モデルのリリースが3つもあって、計算が完全に変わるかもしれない。これらの研究で何を学んでいるのか、ちょっと疑問だね。

確かに、でも2年前にはAIは「印象的なツールだけど、知識労働者の代わりにはならない」から、「最高の知識労働者に勝つ研究は、いくつかの方法論的欠陥があるかもしれない」って変わったんだよね。あと2年したら、終わりだと思う。

この記事のコメントがこうなっている理由はわかるけど、研究は特にLLMが法学生のチューターとして機能する可能性に焦点を当てているんだよね。LLMが弁護士を置き換えるかどうかの話は面白いけど、研究自体ではその点については触れられていなかった。LLMを法的なチューターとして使うという枠組みでは、法的なトレーニングのコストを下げるという暗示があるから、これは社会的にポジティブな結果に思える。さらに、現代のシステムがLLMと法的な参考資料にアクセスできるなら、学生からの質問に対して包括的に答えられるのは直感的に理解できるよね。研究でもそういう結果が出ていたみたいだし。著者たちは多くの法的質問には文脈が必要だと明示的に強調している。研究の結果は、LLMベースのシステムが「確率的最適適合アルゴリズム生成」を使って学生の質問を適切に文脈化し、その質問に潜むトレードオフや複雑さについて洞察を提供できることを示唆している。そして、重要なのは、その複雑さを学生に説明する際に法教育者のプロフェッショナルな基準を満たしていること。現実的には、HNの読者がLLMに法的質問をして、その回答が法の複雑さを説明してくれることに自信を持てるといいなと思ってる。これは素晴らしいニュースで、実際に弁護士に相談する前にやっておくべき最低限の準備だと思う。ただ、逆にこの研究がLLMが直接的な法的助言を提供できる準備ができているということを示しているとは思わない。法的教科書が法的助言の代わりにならないのと同じように、あるいは、同じ状況の法的ケーススタディを見つけたからといって同じ結果が得られるとは限らないのと同じだね。

AIが教育補助として役立つのはどのタイミングか疑問に思う。LLMの質は、他の要素と同様に、質問の仕方に大きく依存するからね。正しい質問をすることは、ほとんどの学生ができることじゃないと思う。結構な専門知識が必要だから。

どうやって「盲目的な」好みテストをするのか気になるな。評価者には、どの回答がAIでどれが人間かはすぐにわかると思うけど。

社会が理解することが重要なのは、プログラマーやカスタマーサポートだけが仕事を失うリスクがあるわけじゃないってことだね。明らかにAIはプログラミング以上のことができるから。

正直、AIが「教育的に有害」としてフラグが立てられることが少なかったのは驚きじゃないよ。LLMが取り込んだ知識の「平均」を作り出してるからね。