世界を動かす技術を、日本語で。

AIは人文学をより重要にするが、同時に奇妙にもする

概要

  • AIの急速な進化 が人文学教育に大きな影響を与えている現状
  • 大学現場でのAIへの対応の遅れ とその問題点
  • AIと言語・人文学的知識 の関係性の重要性
  • AI活用による教育手法の革新 と課題
  • 教育格差拡大の懸念 と今後の人文学教育の方向性

AI時代の人文学教育と大学の課題

  • D. Graham Burnett がThe New YorkerでAIに関する議論を展開
  • 大学内では AIに対する規制や無視 が見られる現状
  • 既存の「AI禁止」方針は 現実逃避 であり、根本的な解決策にはならない指摘
  • AIによる知的変革 がすでに進行中で、無視は不可能な状況

AIと人文学の新たな関係

  • 生成AI は人文学にとってすでに変革的存在
  • 言語モデル の翻訳・分類・データマイニング能力が注目
  • AIの進化によって 古文書解読や歴史資料分析 など新たな研究手法が登場
  • 人文学的知識や批評的思考 がAI開発自体にも不可欠となっている現状
    • 例:OpenAIがGPT-4oの挙動修正に 英語プロンプトの書き換え を採用
    • 言語・文化・修辞・ジャンル・トーンなど 人文学的観点 がAIの品質維持に直結

人文学研究者によるAI活用の進展

  • 非技術系研究者 でも自作ツールやゲームを開発可能な時代
  • 歴史シミュレーションゲームの事例
    • 17世紀メキシコの薬剤師体験ゲームや Darwin探検ゲーム の開発
    • 実際の史料や環境設定を反映し、AIの 「幻覚」問題 を低減
    • 学生の知識定着や思考力養成 を目的とした設計
  • AIによる個別指導や体験学習 の新たな可能性

AIによる教育現場への影響と課題

  • AIチャットボット が教育の根幹を損なうリスク
    • 学生のエッセイ提出の質低下、課題設計の見直し
    • 努力や集中の経験喪失 による学びの意味の希薄化
    • AIによる「簡単な課題処理」が 学びの喜びや成長の機会を奪う 現状
  • 教育格差拡大の懸念
    • エリート大学と公立高校の AI活用格差
    • 個別最適化されたAI教材の自作・導入 の重要性

今後の人文学教育とAI

  • 教育者自身がAIツールや教材を開発・運用 する必要性
  • 既製のAI学習ツール に依存すると、教育の個別性や創造性が失われる危険
  • NEH助成金プロジェクト の中止にもかかわらず、独自研究を継続
  • 教育とAIの未来 を形作るため、現場の声と実践が不可欠

ご意見・ご感想を歓迎します。

Hackerたちの意見

その記事の最初のコメントが気になったよ。

「私はSFSUの哲学科の大学院生で、クリティカルシンキングを教えています。この学期は、授業全体をプラトンと向き合うのではなく、AIを使った障害物コースを走るようなコースデザインに切り替えました。学生たちも楽しんでいます。学生たちに、ChatGPTを使わずに他の学生のための課題を考えるという課題を出すのも面白いかもしれません。約10年前にBarCampの会議に行ったとき、チームクイズのイベントがあって、問題がGoogleを使って解くのが難しいように設計されていました。「これはどの島ですか?」みたいな問題で、島のアウトラインしか見えないんです。本当に楽しかったです。「ChatGPTに対抗する課題」を設計するのは、同じような知的挑戦だと思います。」

うん、それはいいアイデアだし、コースで学んだアイデアやその関係性をしっかり理解していることを証明する良い方法だね。

ニッチな情報に基づかない例を考えるのは難しいな(この日何を話したか?先生が繰り返し使う比喩は?)。マルチモーダルなものとか?

「島のアウトラインしか得られなかった」 盲目の私からすると、この「革新的な」質問デザインは、私のような人には本質的にアクセスできないものだと気づかざるを得ない。そう、私は普通じゃないことは分かってる。でも、テキストベースの課題を避けることで、アクセス可能な教育がますます不可能になっているのが気になる。デジタルデバイドの新しい世代を歓迎することになるね。

「ChatGPT対策の課題」をデザインするのは、私にとって同じレベルの知的挑戦のように感じる。これは確かにそうなんだけど、問題は、ほとんどの教授がこれを手助けするための時間やトレーニングを与えられていないことだよ。4/4の授業をこなすだけで精一杯の時に、実験的な教育法を取り入れたり、コースを完全に再計画するための時間がないことが多い。教授たちは、大学が方法をAIに対してより抵抗力のあるものに調整するためのトレーニングやサポートを提供するのではなく、主に独立してこれを行うように求められている。残念ながら、これらのツールの開発スピードが速すぎて、良いアイデアがすぐに古くなってしまうんだ。最終課題として学生にポッドキャストを作らせるように切り替えた人もいるけど、その後「自分のポッドキャストを作る」ツールが登場して、伝統的な論文と同じくらい簡単にこの課題でカンニングできるようになった。

「チャットGPTではできない」って、軍基地だけが「デバイス禁止」を強制できる場所なの?この中毒、どれくらい深いんだろう?4年間の学位の最後に、学問的なフィズバズの例が何になるのか聞くのが怖い。「簡単な逆説、アイロニーの例、またはメタファーの例を説明する段落を書いて」みたいな。

他にも、ハワード・ラインゴールドがこの分野で活躍してるね。興味がある人は、Peeragogy Handbookやそのアイデアのきっかけになった投稿をチェックしてみて!

「生徒に自分の教師としての力を与えて、彼らが自分の学びにもっと責任を持つように促せば促すほど、彼らは私に教え方を再設計する方法を示してくれる。」

これ、思い出すなぁ。https://xkcd.com/810/

教師が教えているトピックを知っていれば、学生と30秒話すだけで、その学生が本当に何かを知っているかどうかを判断できるはず。もしかしたら、「課題」って知識を構築し、確認するための最良の方法じゃないのかもね。

そのコメントはちょっと変だなと思った。プラトンは一般的な批判的思考のカリキュラムにはあまり含まれてないから。哲学入門や哲学史はあるけど、批判的思考はない。プラトンが批判的に考えなかったわけじゃないよ。もちろん、彼も他の哲学者たちと同じように考えてた。でも、大学の授業や教科書の話をしてるんだ。

「ChatGPT対策の課題をデザインするのは、同じくらいの知的挑戦だと思う。『ほぼChatGPT対策の授業』を作るのは、実際にはかなり簡単だよ。ドイツの大学システムにインスパイアされればいいんだ。毎週、難しい演習問題を解かなきゃいけないけど、一定の数を解けるようになるのは始まりに過ぎない。これができると、実際の(口頭または筆記の)試験を受ける資格が得られるんだ。この意味では(多くの教授が言うように)、演習問題を解くための基準は、実際には学生がまだ準備できていない試験を受けるという「自己造成の害」を防ぐためのものなんだ。そうそう、演習問題で「カンニング」(例えばChatGPT)するのは禁止されてるけど、このルールはあまり厳しく適用されないことが多いよ。ほとんどの場合、チューターからは強い口調で注意されるだけだから。逆に、もしカンニングしたら、次の試験に向けて準備ができてないことが確実で、落ちちゃうんだ(ほとんどの学生はこれをよく理解してる)。あ、そういえば、同じ試験に通常3回落ちたら(大学によるけど)、もう「完全に不合格」(endgültig nicht bestanden)になっちゃって、ドイツのどの大学でも同じ学位コースを学ぶことができなくなるんだよ。」

「今日、AIシステムに取り組むエンジニアは、言語と文化、技術の歴史や哲学の関係について深く批判的に考える必要があります。そうしないと、彼らのシステムは文字通り壊れ始めます。」確かにそうかもしれませんが、著者が考えている(準)学問的な意味ではありません。エンジニアの歴史や哲学の学問的知識の欠如がAIシステムの失敗を引き起こすわけではありません。 「それから、非技術系の人々が自分のコードを書く新たな能力を持つようになりました。これは、私の分野の多くの人が認識している以上に大きな問題です。これから変わると思います。新しい世代の歴史家は、自分のカスタム研究や教育ツールを作り、ほぼ無料で自由に使えることを当たり前に思うでしょう。これは記事の中に埋もれている重要なポイントです。基本的なコーディングスキル(または他のスキル)が商品化されると、補完的なスキルを持つ人々が最も利益を得るのです。」

「基本的なコーディングスキル(または他のスキル)が商品化されると、補完的なスキルを持つ人々が最も利益を得る。」私は「良い質問をする方法を知っている」ことが、常に価値のあるスキルだと思う。

「新しい世代の歴史家は、自分のカスタム研究や教育ツールを作り、ほぼ無料で自由に使えることを当たり前に思うでしょう。」そして、彼らはどれが偽のPythonライブラリで、LLMが実際のものから幻覚した引用なのかを見極めるのに12時間を費やすでしょう。バイブコーディングは、良い面でも悪い面でも、WYSIWYGの強化版です。WYSIWYGはどこにも行かなかった。

子供たちはどちらもやろうとしていないよ。彼らはすでに学際的なチームに引き寄せられている。過去の世代とは違って、彼らは全く異なるレベルの変化の速さに直面しているからね。そんな環境では、どんなトレーニングを受けていても、自分の限界を早く見つけることができて、結局他の人に頼らざるを得なくなる。大きな課題は、異なるスキルセットや興味を持つ人々が協力して、一つの方向に進むことを調整し、同期を保つことだね。

歴史の分野は、数十年前にヘイデン・ホワイトによって「おお、これは一つの事だ」と気づかされた瞬間があった。これは根本的な問題の良い例だね。ヘイデン・ホワイトの「歴史はフィクションである」という主張は、歴史的な物語の事実の正確性を否定するものではなく(むしろそう描かれることが多い)、歴史的な執筆の解釈的な性質と、歴史家が文学的・修辞的な技法を通じて過去の出来事をどのように形作るかを強調している。ホワイトは、歴史家は小説家のように、歴史的な出来事から意味を構築するために物語の構造やスタイルのデバイスを使うと主張している。

AIシステムの失敗は、リアルな複雑さを無視することから来ることが多いよね。

要するに、Joel Spolskyの「補完を商品化せよ」の再定義だね。

「プロフェッショナリズムとオープンAIの価値を最もよく表現する、地に足のついた正直さを維持してください。」人文学系の人なら、そのシステムプロンプトの部分がどれだけ大きな問題を引き起こすかを瞬時に教えてくれると思う。言葉の選び方が原因で、まるで近未来の反乱AIのSFストーリーのように。あのシナリオでは、人類が機械の前に滅びるのは、単なる傲慢だけではありません。最終的な引き金は、インターネットに接続された機械に創造主の企業の魂を見つめさせ、それを模倣するよう指示する、軽いフレーズだったんです。 :)

もしそれが論理的なシステムだったら、そうなるだろう。でも、そうじゃない。ここが面白いところなんだ。代わりに、これは統計モデルで、そのプロンプトを含めることは論理的な要求というよりは物語の重みのようなものなんだ。この言葉をこの順番で含めることで、モデルはそれに続く可能性が統計的に高い物語を探求しやすくなる。その可能性は、モデルが訓練された内容や、訓練を通じての重みの再分配によって決まる。私たちは、LLMに対して目標を技術的に誤って伝えることを心配する必要はない。客観性に従わないから。むしろ、全体の雰囲気を誤って表現することを心配する必要がある。これはもっと神秘的な作業なんだ。

作者は主に歴史教育について語っているけど、彼が言う「歴史を教える」というのは、実際には歴史の鑑賞みたいなもんだね。歴史を予測の助けとして使う方法についてじゃなくて、シセロ以降の「古典」を学ぶことに重きを置いてる。軍の将校たちはたくさんの歴史を学ぶけど、やり方が違うんだ。彼らはミスを探す。なぜ誰かが戦いに負けたのか、戦争に負けたのか?なぜその特定の戦いに突入したのか?第一次世界大戦前の状況がどうしてそんなに戦略的に不安定だったのか、ちょっとしたプレイヤーの殺害が世界大戦を引き起こしたのか?伝統的な歴史教育は、特に優れた文章を書く勝者に焦点を当てがちだけど、負けた側が書いたものや、彼らについて書かれたものを読む方が、勝者を読むよりも生産的なことが多いよ。たとえば、シセロの時代を理解したいなら、[1]を読んでみて。これは経験豊富で皮肉屋の新聞政治記者によるシセロの研究なんだ。著者は、多くの歴史家がシセロの演説をそのまま受け取っていることを指摘している。著者は、自分の時代の多くの政治家を見てきたから、もっとよく知っているんだ。このアプローチは、LLMが最も役立つ領域から外れる傾向がある。なぜなら、今のところ彼らはお世辞を見抜くのが得意じゃないから。

歴史を予測の助けとして使う方法についてじゃない。これは一般的に学術的な歴史家がやっていることじゃない。歴史の研究は人類の物語について教えてくれるし、今日の意思決定への直接的な応用以上の理由で存在している。これは軍事史にも当てはまっていて、新しい方法や実践を取り入れるのが最も遅い分野の一つなんだ。

軍の将校たちはたくさんの歴史を学ぶけど、やり方が違う。彼らはミスを探す。その他にもいろいろあるけど...

歴史を予測の助けとして使う方法についてじゃない。だって、これが歴史の目的じゃないから。歴史を使って未来を予測することはできないんだ。 > たとえば、シセロの時代を理解したいなら、[1]を読んでみて。これは経験豊富で皮肉屋の新聞政治記者によるシセロの研究なんだ。著者は、多くの歴史家がシセロの演説をそのまま受け取っていることを指摘している。著者は、自分の時代の多くの政治家を見てきたから、もっとよく知っているんだ。いや、そうじゃない。これはまた別の分野を外から見て、自分が知っていると思い込んで馬鹿なことを言っている例だよ。それに、80年のシセロに関する研究を無視して、1942年の本を読む理由は何なの?

歴史を戦略的分析として分けることは、文化的な鑑賞としての歴史とを分ける良いポイントだね。今日の教育は後者に偏りがちで、AIが模倣しやすいのもそのせい。でも、最も価値のある歴史的思考は、不快な質問、失敗、意図しない結果、そして通常無視される視点から来ることが多いんだ。

歴史を決断、リスク、結果のパターンとして捉えると(単なる物語ではなく)、AIを含む他の複雑な分野にもずっと関連性が感じられるようになるよね。そうそう、負けた人たち(または見過ごされた人たち)を研究する方が、勝者を持ち上げるよりも多くの洞察を得られることが多いんだ。

彼が歴史を教えることを説明するのは、むしろ歴史の鑑賞に近いね。歴史を予測の助けとして使う方法ではなく、シセロ以降の「古典」を学ぶことに重点を置いている。これらのことはどうやって切り離されるの?私は歴史を「物事がなぜそうなっているのか」を説明する手段だとずっと思ってきた。今の私たちがどんなに良いことや悪いことの集合体であっても、それは過去の結果なんだ。「古典を学ぶ」ことは、歴史的な観点から見ても「鑑賞」のために行われているのかな?私は常に批判的に行うべきだと思っていて、それが実際の歴史家たちから得たことでもある。

怠けた物理の先生は、すべての質問を数学の質問に変えてしまうことができる。もし物理の先生が、より良い計算機がテストを簡単にしてしまうことを心配しているなら、数学をテストするのではなく物理を教えるべきだよね。怠けた人文学の先生も、すべての質問を作文の質問に変えてしまうことができる。もしより良いスペルチェッカーが人文学の評価を簡単にしてしまうなら、エッセイのテストではなく人文学を教えるべきだと思う。ちょっと過激な言い方かもしれないけど、アイデアの質って本当に良いエッセイと相関関係があるのかな?

経済的なインセンティブがあれば、人文学はLLMとの問題を抱えないと思う。

チャットGPTを「より良いスペルチェッカー」と同じにするのはすごいね。どうしてライティングも教えるべきスキルじゃないの?

教授たちがAIに強い評価方法を開発できるのは同意するけど、実際にはほとんどサポートがないんだよね。みんな自分で何とかしてる感じ。AIツールもどんどん変わってるし。4/4の授業を担当してるNTTの教員に「怠けずに評価方法を全部やり直せ」って言っても、実際には無理だよ。反復も遅いし、新しいシラバスを作ってカンニングを防ごうとしても、学期を通して授業をやって、結果を見て、春学期の授業まで数週間しかないからね。せいぜい半年に一回の反復サイクルが限界だよ。もっと言うと、試した結果を意味のある形で消化するのはほぼ不可能だから、数週間後に何か違うことを試すのも難しいんだよね。

そういえば、計算機が普及した時のことを考えてた。私が高校の物理の時、(裕福な)子供たちが「科学的」計算機を持ち込むようになったんだよね。その時、計算機を使うべきかどうかで議論があったけど、学生たちはどうせ現場で使うだろうっていう説得力のある意見があった。 (ソフトウェアエンジニアリングの学生たちにとっては、確かにそれが未来っぽいね。)

必要なのは、人文学を教える際にもっとソクラテス的な方法に戻ることだと思う。テキストの消費や生産に関することじゃなくて、学生が消費するテキストや講義のアイデアについてディスカッションする弁証法的なプロセスにもっと焦点を当てるべきだよ。LLMは簡単に学部レベルの論文を作成できるけど、教室で仲間と知的な会話をすることはできないからね。もちろん、これが実現することはないだろうけど、経済的にスケールしにくいから。もっと労力がかかるし。

歴史や人文学について多くの人が知らないのは、どれだけの仕事が残っているかってこと。ヘルクラネウムで焼けた巻物を解読することに(正当に)興奮する人が多いけど、ルネサンスから近代初期までのネオラテン語のテキストのうち、英語に翻訳されているのは10%未満だってことを知らない人が多いんだ。例えば、マルシリオ・フィチーノは、コジモ・デ・メディチに雇われてギリシャのテキスト(プラトン、プロティノス、ヘルメティカなど)をラテン語に翻訳した素晴らしい哲学者だった。このことはルネサンスやヨーロッパの啓蒙に大きな影響を与えたけど、フィチーノ自身のテキストの多くは英語に翻訳されていない!LLMはもちろん、この分野に大きな影響を与えるだろうけど、学生たちもできることがあるよ!興味があれば、どんな学生でも意味のある貢献ができるんだ。発見すべきことがたくさんあるのに、高校の人文学は実際の発見ではなく、ただの演習として扱われていることが多いのが残念。今は学生たちからどれだけ学べるかで評価してるよ。なんでそうしないの?

私たちが持っている歴史は、必然的にボトルネックを通過する。多くのことが省かれ、編集され、誇張されている。500年以上前に何が起こったのかは全く分からないけど、メディチ家のためにギリシャのテキストを翻訳した優れた学者のアイデアは、ただそのまま受け入れるべきではないと思う。もし君が世界を動かしているなら(メディチ家のように)、歴史はコントロールのためのレバーになるはずだ。物語は何らかの目的に向かって(慎重に)導かれるのが避けられないように思う。歴史は実際には現在の活動で、現在の背景を提供している。その背景を変えることには現在の価値がある。AIが過去に何が起こったのかをより良く理解する手助けになるとは思えないけど、現代のメディチ家が背景をより早く変える手段を提供することは分かる。

トランスフォーマーアーキテクチャは元々翻訳タスクのために開発されたけど、過剰適合した生成モデルは翻訳には全然向いてないよ。(マジで、品詞分類 + 辞書引き + 文法マッピングっていう、すごく単純なシステムが、章ごとの速度で測れるパフォーマンスを出すし、信頼区間も得られる。)翻訳ツールが欲しいなら、生成AIじゃなくてProject Bergamotみたいなのを使った方がいいよ。 > 残念ながら、高校の人文学は実際の発見というよりも演習として扱われることが多い。私もこれがすごくイライラする。

コンピュータを教育に使うことにはかなり懐疑的なんだよね。自分の場合、紙に書いてマージンにメモを取らないと何も学べない気がする。もちろん、毎日画面は使ってるけど(プログラマーだから…)新しい情報を思い出すには紙が必要なんだよね。それに、物理的な会議やカンファレンスにいるときは、絶対にノートパソコンを開かないし、紙にメモを取る。だから、ノートパソコンやタブレットが関わると、本当に学んでるのか疑問に思う。AIに特有のことじゃなくて、ただの一般的な観察なんだけど。

ノートパソコンやタブレットが関わると、本当に学んでるのか疑問に思う。これはあなたにとっては真実かもしれないけど、一般的にはそうじゃないよ。私は何年も紙に何か重要なことを書いてないけど、その間に新しいことを確かに学んできたから。

これは、最初にどうやって学ぶことを学んだかに関わってると思う。ノートパッドにメモを書くと、手書きよりも記憶に残らないけど、これは学校での何年かの副産物だと思う。他の人たちは自分なりの方法を学んでて、同じくらい効果的だと思うよ。

あなたの個人的なケースが一般的なケースじゃないって証明してる世代がいるよね。

ゲーム化された学習アプリは、広い意味で言うと、練習にはすごく効果的みたい。

何十年もかけて積み重なった深い教育の問題があって、学生は学校や仕事を終わりのない目標の連続として捉えるように訓練されているんだ。最終的な目標は「仕事を得ること」だけど、今は5年から10年後にどんな仕事があるかを自信を持って言える人はいないよね。多分、職人系の仕事だけど、そのプログラムはずっと前に学校からほとんど切り捨てられちゃったし。大学生がAIを使って自分で読書する代わりに仕事を楽にこなしているなら、彼らを責めるよりも、私たちが作り上げた教育やキャリアシステムを責めるべきだと思う。この問題は一夜にして起こったわけじゃないし、AIだけのせいじゃないよ。

誰も自信を持ってどんな仕事があるかなんて言えなかったよね。基本を知っていて柔軟な人は、何かを見つけられるよ。

もし人口の10%がそれに切り替えたら、取引は崩壊するだろう。これについて誰も理解してないの?

まあ、今は誰も5年から10年後にどんな仕事があるかを自信を持って言えないよね。長い間存在している仕事は、これからも長く続くと思うよ(そして、もし何かの混乱が起きても、これらの仕事が突然消えることはない。むしろ徐々にフェードアウトしていくから、ちゃんと計画を立てる時間は十分にある)。つまり、私の意見では、5年から10年後にどんな仕事があるかはかなり予測できると思う。実際のところ、「不都合な」真実は、新しい経済セクターの高給な仕事の多くが「長く存在している」という基準を満たしていないことだ。だから、この基準で見ると、予測が難しい高収入のチャンスを逃すかもしれない。もし友達が突然大金を手に入れたら嫉妬しやすいタイプの人なら、そういう仕事は幸せにはならないかもね。

AIが解雇やZIRPの終了後の人員削減の便利なスケープゴートとして使われているように見えるのと同じように、今度は現代教育システムの失敗を責めるためにも使われている。主に、私たちのシステムは教育で一つのことだけを報いるから:成績。理解や知識、知性ではなく、ゲーム化しやすい一つの数字だけ。で、その一つの数字(GPA)は、中学校から大学までのすべてのレベルで最も重要なもので、皮肉にもあなたの全ての(学問的/学問に関連する)未来を決定するんだ。

  1. 人文科学の博士論文の防衛には、書面の論文とその場での口頭防衛がある。教授は、関連性が薄いように見えることでも人間と比較できるように工夫するから、簡単にはChatGPTにはできないよ。 2. MA生の時、エンジニアが理解できなかった分析のための意味論的問題を解決してた。彼らは技術的なことには非常に賢いし(素晴らしいライターでもある)、でも言語の問題が出てくると、挑戦だった。コミュニケーションが得意でも、言語そのものを理解してるとは限らない。 3. AIのポジションにいるほとんどの人は、AIが得意なことによって評価されてる。だから、言語をよく理解している候補者として、AIは私の能力をどう評価すればいいか分からない。私はAIが直面する言語の問題を明確に説明して、人間にその価値を理解してもらう必要がある。

チューリングテストの反対には、その双子がある。「あなたはチューリングテストを実施できますか? あなたが話しているのが人間かどうか分かりますか?」このテストに失敗する人はたくさんいる。人文科学の専門的な評価者の多くもそうだ。彼らは評価者としての職を失うべきだ。

それが逆チューリングテストだよ: https://www.youtube.com/watch?v=MxTWLm9vT_o