スタンフォード大学法学部の研究でAIが法学教授を上回る

2026年6月3日原文(law.stanford.edu)

概要

Stanford Law SchoolのJulian Nyarko教授らによる研究で、法学教授はAI生成の回答を他教授の回答より高く評価
契約法の質問に対し、AIは75%のケースで人間の回答より優れているとされた
AI回答は教育的に有害とされる割合も人間より低い
法学のような判断力を要する分野でもAIが有効なチューターとなる可能性を示唆
AI活用の具体的な導入方法は今後の課題

スタンフォード法科大学院の研究：法学教授はAI回答を高評価

Stanford Law Schoolの Julian Nyarko教授 主導による画期的な研究
米国の16名の法学教授が参加し、 契約法 に関する学生の質問に対するAIと人間の回答を比較評価
約3,000件の匿名比較で、 AI回答が75%の割合で人間の回答より高評価
AIは複雑な法的判断や推論を要する質問にも対応可能であることを実証

研究の意義と方法

法学のように 正解が一つでない分野 でAIの能力を検証
40の代表的な契約法の質問を作成、教授自身が回答し、AIと比較
評価時は回答者の正体を伏せた ブラインド方式 を採用
AI回答が教育的に有害とされた割合は 3.5%、人間回答は 12%
AIシステムは最も優秀な人間講師と同等のパフォーマンス

AIの教育的有用性と今後の課題

AIチューターは 質の高いオンデマンドサポート を提供し、法学教育の補完役となる可能性
GoogleのNotebookLMなど、複数のAIモデルの性能を比較
一部のAI回答で文脈不足が見られたが、それでも教授陣はAIを好む傾向
法科大学院はAI導入に慎重な姿勢もあり、 批判的思考力の低下 や 誤情報 への懸念も存在
AI導入の最適な方法は今後の検討課題

liftlabとStanford Law Schoolの紹介

liftlab は法学分野におけるAI研究・プロトタイピング・産業連携を推進
AIや先端技術を活用し、 質の高い法的サービスへのアクセス拡大 を目指す
Stanford Law Schoolは 世界有数の法科大学院 として、学際的教育・実務経験・国際的視野・公共奉仕に注力

今後の展望

AIが法学教育に与える影響の議論は 「AIの質」から「責任ある活用方法」へ シフトすべき
Nyarko教授「AIチューターの全面導入を推奨するものではないが、 一律な懐疑論も根拠薄弱」
今後は学生の学習効果を最大化する AI活用法の設計 が重要課題

Hackerたちの意見

ソフトウェアエンジニアとして、エージェントにどのタスクを任せるべきか、リスクについての直感はあるんだけど、AIに法律文書を作成させるときに何がうまくいかないかについては、あまり直感が働かないんだよね。例えば遺言書の作成は無害に思えるけど、実際はどうなんだろう？私たちの法律システムは、トラブルの元が多いことで有名だからね。

└

これは多くの専門職に当てはまると思う。AIは、そのスキルや職業に既に詳しい人が使うのが一番効果的だよね。私がシステム管理者としてググるのと、経理のジェーンがやるのを比べると分かりやすい。技術に詳しくないユーザーは、問題を悪化させたり、広告だらけの結果から怪しいものをインストールしたりする可能性が高い。重要な法律文書をAIで作成するのは、弁護士のアドバイスなしでは信頼できないし、弁護士にAIを使ってコードを書いてもらうのもあまり頼りたくないな。

└

LLMはフットガンを避けるのが得意だと思ってたんだけど。これは、よく知られたルールや落とし穴のリストがあって、弁護士の仕事はそれを事実のパターンに適用することなんだよね。事実のパターンは似てるけど違うから、自動化するのが難しいんだけど、LLMは異なる事実のパターンに一般的な原則を適用するのが得意みたい。

└

クロードがベンチで不正をするから、法律の分野ではどうなるか心配だな。

└

遺言書の作成は無害とは思わないな。もしうまくいかなかったら、相続人が大変な頭痛に悩まされることになって、数ヶ月や数年の遺産分割手続きに巻き込まれるかもしれない。

└

今のところの私の経験（弁護士とソフトウェアエンジニアの両方として）では、コードや法的文書を作成する際のLLMのエラー率はかなり似ているけど、法的文書の方が問題が多いんだ。法的文書にはコードにあるような構造的な安全策がないからね。法的文書には自動テストも静的型付けもテスト環境もログ記録も観測機器もサンドボックスもない。ドラフトから「デプロイ」までのタイムラグも、効果的で高価なデバッグループを作る要因になっている。コードは数秒で本番環境にデプロイできて、エラーがログに表示されたらすぐにデバッグを始められるけど、契約書や裁判所の提出書類のエラーが見つかるまでには最低でも数日、時には数年かかることもある。その時点でエラーは修正不可能なことが多いから、エラーは発見も解決も難しいし、誤りの結果はしばしば大きい。法的なエラーは誰かの命や自由、重要な財産を危険にさらすことがあるからね。もちろん、特定の安全クリティカルなシステムのバグは法的ミスよりも悪いこともあるけど、一般的にはほとんどのソフトウェアは法的文書よりリスクが低い。逆に、LLMは法的文書の基本的なスタイルや構造についてはコードよりも良い仕事をしているように見える。IRACフォーマットに従ったり、法律の主張を引用したり（幻覚の問題は残るけど）、分かりやすい文を書いたりね。これはコードにおける良いコメントや一貫したデザインパターンの使用、テストカバレッジ、明確な変数名、DRYなどのベストプラクティスに相当する。これらの質的な指標でのパフォーマンスが良いのは、法的文書が通常、構造がシンプルでテキストの行数が少ないからかもしれないし、LLMが自然言語テキストで訓練されているからかもしれない。あるいは自然言語はコードよりも寛容で、言葉や文法の小さな違いが文書の解釈に大きな影響を与えないからかもしれない。一方、コードでは一文字のエラーが大きな影響を及ぼすことがあるからね。

└

これはAIがコードを書くことに対する完璧なアナロジーだと思う。遺言を作成するのは大したことないように見えるけど、その遺言が「十分良い」と受け入れられて、裁判で問題になると大変なことになるんだよね。

└

いくつかのことは無害に見えるけど、たとえば遺言書の作成。遺言書がAIによってめちゃくちゃになった場合、遺産の執行者として対処しなきゃならないのは全然無害じゃないよ。俺はこの春、父の遺産を扱ったけど、シンプルな遺産でもフラストレーションと混乱の連続だった。

└

だから、大学卒業生がAIの終末にどうやって生き残るのか見えないんだよね。ドメインの専門家がLLMを駆使するのは超強力だけど、彼らはミスを見つけられるから。ジュニアはその洞察がないから、LLMが彼らの生産性を下げることになる。

└

遺言書の作成。そういう文書は、最終的に亡くなる人には違いがないかもしれないけど、アメリカのように王朝作りに最適化された国では、次の世代の人生を左右することがあるんだよね。

└

一般的なLLM AI（普通のClaudeやGPTなど）を使って、法律文書を作成するのにかなり頼ってるよ。一番の罠は、幻の引用だね。まるで本物のような引用を、他のケースから挿入してくるんだ。それが、君が言いたいことを完璧に証明する引用だったりして、名前も本物っぽく作り上げる。例えば、United States v. Shenzhou Electronics Incとかね。何回か出力をチェックして、間違った引用がないと安心しちゃうけど、次の動議を書くときにいきなり3つも入れてくることがある。LLMを使ってリサーチしてない弁護士は、時代に取り残されてるよ。自分では絶対見つけられないニッチなケースを見つけるのがすごく得意だから。以前は、正確な検索語の一致が多かったけど、それは法律リサーチにはあまり役に立たなかった。もっとあいまいな用語で検索できるものが必要なんだけど、AIはそれが得意なんだ。結果を見てみて。Lexis NexisやWestlawのLLMは、一般的なものよりも多分優れてると思う。LLMは素晴らしいパラリーガルになるよ。法律関係の仕事をしてるなら、アイデアを出すためだけでも使うべきだよ。悪魔の弁護人みたいに使ってみて。友達はいつも相手方の弁護士役をさせて、反論がどうなるかを見てる。ソフトウェア開発と同じだね。自分が作ってるものに気を使うなら、出力をチェックしなきゃ。

私の予想では、ジェミニは質問がテストされる教科書でトレーニングされているから、その質問や関連する質問を明示的に思い出すのが得意なんじゃないかな。これは、論文の方法から見ると、かなり限られた入門コースだね。

Hacker Newsで議論の続きを見る

ハクソク