世界を動かす技術を、日本語で。

AIは個人コンピューティングにおいて私たちが失敗したからこそ印象的である

概要

  • 現代のLLMベースAIは、インターネットの混沌から答えを導き出す能力
  • 構造化された情報管理の失敗がAIの台頭を後押し
  • 検索頼みの情報整理手法が主流化
  • セマンティックウェブや個人知識ベースの未実現
  • AIは優雅な設計ではなく、力技による回避策

LLMがもたらす「検索」時代の知識体系

  • ChatGPT のような最新のLLMは、従来の 全文検索エンジン では対応できない複雑な質問にも瞬時に回答
  • 例:「1805年にイギリスが初めて小さな植民地を設立し、同年にスウェーデン王Gustav IV Adolfがフランスに宣戦布告した国の国旗に描かれている動物は?」→ Dominica の国旗に描かれた Sisserou parrot
  • GoogleのAIウィジェット はこの問いに失敗、LLMの圧倒的な強みが浮き彫り
  • LLMは大量の未整理情報から意味的関連を推定し、 混沌から構造を抽出 する能力
  • これは、人類が情報をうまく構造化できなかったことの「副産物」

構造化の放棄と「検索」依存の時代

  • 多くの現代サービスは、情報の 構造化を諦め、検索に依存 する設計パターン
  • 例:Google Driveはクラウド上の「ファイルシステム」だが、整理が難しく デスクトップのファイル管理以下の体験
  • 解決策は「 全文検索」の導入:「全部放り込んで、あとで検索して探す」スタイルへ
  • この「構造を諦めて検索に頼る」パターンが静かに 主流 となった
  • 「検索」は単なるテキストマッチングから、 多次元トークンマッチング まで多様化

セマンティックウェブと個人知識ベースの未達

  • Semantic Web 構想では、ウェブ全体を 構造化された意味的リンク で繋ぐ理想追求
  • 現実は未構造化・メタデータ不足、さらに JS駆動の動的HTML で機械可読性も悪化
  • 本来、PCは 個人の知識ベース として、HyperCardのような 意味的接続 を活用する可能性
  • しかし、その実現は未だ遠く、 オープンスタンダード やセマンティックリンクも普及せず

LLMの本質:力技による知識抽出

  • もし全知識が リッチなセマンティックリンク で構造化されていれば、 単純な自然言語処理 でも複雑な質問に対応可能
  • その場合、 圧倒的に少ない計算資源 で答えを導出できる
  • 何より、知識とその接続性が AIモデル内部に隠蔽されず、人間にも理解可能
  • 現状のAIは「 優雅な設計」ではなく、 力技によるワークアラウンド
  • LLMは未整理情報から 仮想的な意味マップ を生成し、一時的な「知識体系」を構築
  • これは「古典的な知識」とは異なるが、 もしかすると本質的には「知識」そのものかもしれない

Hackerたちの意見

かなり単純化した意見だね。「巨人の肩に立っているからこそ、巨人たちが私たちが達成した高みには届かなかったことが明らかだ。」

コンピュータが2000年代初頭に比べてかなり速くなったのに、使いにくくなっていることをよく考える。大学で初めてLinuxを使ったときは衝撃だった。だって、コンピュータに「このディレクトリ内のファイル名を重要な部分だけ残してリネームして」って指示できるツールを手に入れたから。でも、コンピュータが毎秒何千もの操作をこなせるのに、その能力を活かすためのインターフェースを改良する代わりに、業界の権力者たちは数十億ドルをGPUに投資して、言語を理解しているように見えるプログラムを作ることに決めた。でも、そのプログラムは「blueberry」の中のBの数を数えることすらできないんだよね。

わかんないけど、何兆回も同じ操作をして同じ結果を出すシステムって、宇宙中どこにもない信頼性を持ってるのに、それを「どうしてそう答えたのかはわからないけど、正しいかもしれない!」って感じにするのが可愛いと思う。

Bの数を数えることって重要なの?それに、LLMにテキストを自分が望むように解析させることができると思うよ。ただ、LLMは君のテキストを君が見るようには見てないから、その単純な操作は簡単じゃないんだ。同じように、「ブルーベリー」のオクテット数を数えることができないからって、君が無価値だってわけじゃないよね?

プロンプト: 「ブルーベリーを綴って、bの数を数えて」。彼らはまだAGIを主張してないから、最適にLLMを操作するには人間の知能が必要なんだ。LLMは文字ではなくトークンを処理することが知られているから、「推論」のスペースがないと、プロンプト内にbの表現はない。綴るように指示したり考えさせたりすると、綴る余地ができて、そこから文字を「見る」ことができるから、数えるのは簡単だよ。

セマンティックウェブへの憧れを表現しているね。 > セマンティックウェブを覚えてる?ウェブは意味的に構造化された、リンクされた機械可読データに進化するはずだったのに、それは実現しなかった。学ぶべき教訓は「なぜセマンティックウェブは実現しなかったのか?」という質問に答えることだと思う。

「なぜセマンティックウェブは実現しなかったのか?」それは、ウェブコンテンツがエンジニアではなく人間によって生成されているからだ。

「なぜセマンティックウェブは実現しなかったのか?」広告のせいだよ。

「セマンティックウェブはどうして実現しなかったの?」私はウェブが始まった頃からずっとウェブ開発をやってるけど、私が関わった会社は、自分たちの貴重な情報を簡単にスクレイピングされる形式でオンラインに出すことに対してオープンに敵対的なんだ。情報は自由になりたがってるんじゃなくて、金を払ってもらいたがってる。サイトに訪問者を引き寄せるような情報じゃない限り、公開する必要はないよね。

商人では作れないからだよ。これは僧侶の仕事だ。

セマンティックウェブなんて存在しなかった。Googleがあって、Googleには検索結果にパンくずリストを表示するためのAPIがあった。それを人々は「セマンティックウェブ」と呼んでいた。数年後、彼らは諦めて、結局すべてをパンくずリストのように見せることにした。それがセマンティックウェブの全体的な体験を要約してるよ。

セマンティックウェブは言語よりも限界があったからね。

セマンティックウェブは、理論的にはデータサイエンティストやメタデータスクレイパーには素晴らしいものでしたが、普通の人間にはほとんど価値がありませんでした。出版側も消費側もそうです。しかも、実際に使える形で全てのカテゴリーやプロトコルを定義するための地道な作業を誰もやっていなかったんです。全体のコンセプトが高尚すぎて、実装の詳細が全然整っていなかった。仮に整っていたとしても、ものすごく複雑で管理がほぼ不可能だったでしょう。すべての出版社にデータをこの巨大なスキームにきちんと分類させるのは、ウェブ全体に無数のエラーを引き起こして、プロジェクトの有用性を大きく損なう結果になっていたはずです。結局、セマンティックウェブはあまりスケールしません。コマンド経済が失敗するのと同じ理由で失敗しました。管理する側にとって圧倒的すぎて、自らの官僚主義に溺れてしまうんです。

もしすべての知識が構造化され、豊かな意味的リンクがあれば、非常に原始的な自然言語処理アルゴリズムでも、記事の冒頭の例のような質問を解析できて、計算リソースを何桁も少なくして答えを見つけられるだろう。特定の市場では、LLMは「リンクされたデータのセマンティックウェブ」知識グラフを生成して、効率的なNLPアルゴリズムで解析できるのかな? https://news.ycombinator.com/item?id=43914227#43926169 LLMを活用して特別なマークアップを作り、他の用途に適用できるようにする… JSON-LDやOWLのようなセマンティックウェブ形式、またはSPARQLクエリを処理できるデータベース… Palantirは、LLMの幻覚を防ぐためにオントロジーをガードレールとして使っている。

2009年に初めてPalantirを使ったとき、90%がオントロジーの作成だった。彼らはその時点で、特定のビジネス問題にマッピングされた構造がなければ、グラフに入力されたデータを文脈化するのが難しいことを理解していた。

開発者の間でよく見かける態度だと思う。「みんなが正しく作れば、こんなバンデージは必要ないのに」って。私には、「みんなが完璧に協力して助け合えば、法律やお金、政府、宗教なども必要ないのに」って感じがする。確かに君の言う通りかもしれないけど、そうはならないよ。なぜなら、私たちは複雑なシステムの一部で、みんなそれぞれ異なるインセンティブを持っているから。セマンティックウェブはGoogleが提案した標準だけど、すべてのブラウザがその標準に従わないウェブページを壊すために協力しない限り、人々は完全には従わないよね。むしろ、ブラウザは(私の見解では正しく)できるだけ柔軟にページを最善の努力で表示することを選んだ。なぜなら、みんなウェブページを作る方法が少しずつ違ったから。人々は「正しい」やり方にこだわりすぎるけど、コンピュータの現実、そしてすべての現実は、物事を行う方法がたくさんあって、それを扱うのに快適なシステムが必要なんだよね。

うーん、なんか分かるけど、もっと単純な話だよね。「みんながちゃんと作れば」じゃなくて、「みんなの仕事が完全にゴミじゃなければ」って感じ。企業が作るものが恥ずかしいレベルのものばっかりなのは、あんまり見かけないよ。俺もいくつかの会社で働いたけど、作ったものは本当に恥ずかしいものでしかなかった。理由は明らかで、内部では誰も気にしないし、外部でも基準がないから、悪い仕事してもお金は入るし、なんで頑張る必要があるの?実際には、文化が改善への意欲を潰しちゃうんだよね。悪いものがあるだけじゃなくて、もっと良くしようと思ったら頭おかしいって見られるし。2025年には、Cを擁護する人もいれば、JavaScriptを擁護する人もいるし、型なしでソフトウェアを書く人もいる。デバッグは時々、実際のバイトを目で見ることが必要だったりするし、UIはクロスプラットフォームじゃない方法で書かれてる。何度も同じようなバカなソフトウェアが百万社で作られて、誰かに大きなファイルを送るのはまだ結構難しいし、コメントを残すのは実質不可能…これらはソフトウェアの問題で、全てがクソで、全て改善できるはずなのに、何も簡単じゃない。世界をシンプルにするために必要な抽象化がまだまだ足りない。昨日、PDFのサイズを変更するのに2時間もかかったよ。本当に石器時代に生きてる感じ。進歩したのは、今やどの岩にも広告が載ってるってことだけ。もっと容赦ない競争の世界だったらいいのに。ソフトウェアが悪い、遅い、デバッグが難しい、拡張が難しい、オープンソースじゃない、現代的じゃない、正しい抽象化に基づいてない、移行が難しい、フィードバックを受け入れない、広告だらけ…そんなソフトウェアは、競争にすぐに潰されるべきだよ。今みたいに、マーケティング資料で嘘をついても誰も何もできない状況じゃなくて、競争も同じくらい弱いから。生き残るために頑張れば、もっといい仕事ができるはずなんだ。

セマンティックウェブは、プロログやAIのための形式的システムの研究から生まれたけど、うまくいかなかったんだよね…LLMやベクターデータベースは、かなり使える新しいツールを提供してくれる。

「セマンティックウェブはGoogleが提案した標準だった」って、そんなの間違いだよ。彼らはちょっとだけ貢献しただけ。ティム・バーナーズ=リーが1999年にこの言葉を作ったし、2001年にはバーナーズ=リー、ヘンドラー、ラッシラの共著でScientific Americanにその概念をさらに詳しく説明した記事があるんだ。

セマンティックウェブはGoogleが提案した標準だった これ、AIが書いたの? セマンティックウェブに興味がある人がその起源(少なくともGoogleじゃないってこと)を知らないなんて信じられない。セマンティックウェブの概念は、ティム・バーナーズ=リー(HTTP、WWW、HTMLの父としてみんなが認識してるといいけど)が1999年に提案したんだよ。私の知る限り、GoogleはRDFやOWLのような初期のセマンティックウェブ標準に直接関わってなかった。私は後者に関わっていた人たちと少し仕事をしたけど(密接ではないけど)、その頃のGoogleはまだかなり小さかった。 0. https://archive.org/details/isbn_9780062515872/mode/2up 1. https://www.w3.org/TR/PR-rdf-syntax/Overview.html 2. https://www.w3.org/TR/owl-ref/

XHTMLとセマンティックウェブを「ウェブページを壊す」部分で混同してるんじゃない?

「みんながただ~」ってフレーズは、私にとって自動的に引っかかるんだよね。みんながただそうするなんてことは絶対にないから。問題に対する別の解決策が必要だと思う。

私も思うなぁ… お母さん:「部屋を片付けなさい」 子供:「お母さん、もう諦めて。部屋はずっと散らかってるから、検索使ってよ」

木から直接取った新鮮なプラムは、スーパーの生鮮コーナーで売ってるやつよりずっと美味しいし、缶詰よりもいいし、再水分補給されたプルーンよりもまだマシだよね。計算を大衆に広げる過程で、手間がかかって限られた人しか手に入れられなかった地元のプラムから、誰でもポケットに入れて持ち運べるほぼ魔法のようなプルーン装置を作るようになった。これで無限にプルーンを手に入れられるわけ。LLMはこれを再水分補給してくれるから、かなり食べやすくなる。乾燥果物をかじるのに慣れてる人には素晴らしく見えるけど、まだまだやるべきことはたくさんあるよ。

でも、ウィリアム・カルロス・ウィリアムズに勝てるの?

そうかもしれないけど、私たちは失敗したし、パーソナルコンピュータだけじゃなくて、セマンティックウェブだけでもなく、コンピュータやプログラミング全般で失敗してる。失敗の原因は、元々の意図(コンピュータはもともとAIに近いものだった)と理論、実際の結果の間にあって、すべてのソフトウェアプロジェクトが持続不可能な無限の後退に陥ってる。ALGOLのあたりで何かが壊れたんじゃないかな。LLMも別の理由で失敗してるけど、個人的にはAI全般が失敗するとは思わない—工業コンピュータサイエンスの60年近くの失敗を修正するだろうね。

このアナロジーはあんまり好きじゃないし、この記事の前提も好きじゃない。ソフトウェアを書くのは限界があるんだよね。ElectronやJavaScriptみたいなショートカットを使っても、結局エンジニアは限られてるし、解決すべき問題は山ほどある。もっと良いアナロジーは、AIの画像や動画に何が起こっているかを見ることだと思う。あれは基本的なコスト削減、時間削減、必要な人員の要件を10,000倍にした。これは工業化の瞬間だよ。いくつかのフィルムを作った映画製作者として、これはゲームチェンジャーで、個人がピクサーを超えるレベルにクリエイティブ業界全体を引き上げる。これがAIがソフトウェアに与える影響を考えるレンズだよ。手作業で石の車輪を作る時代からモデルTに進化する感じ。これからが本番だよ。今のモデルが提供するものをほとんど使ってないからね。

それとも、プラムの香りが加わったスープかな。いいアナロジーだね。

このアナロジーは意味がないよ。今のコンピュータは、前のコンピュータよりもあらゆる指標で優れてるから。

LLMはこれを私たちのために再水和してくれて、かなり食べやすくしてくれる。乾燥果物をかじるのに慣れているなら、すごく感じるはず。ただ、時々新鮮なプラムを期待していると、いきなりイチジクやリンゴ、バナナ、あるいは棒にかじりつくことになる。

夢でも見てるの?私はエンジニアで、構造化データが何か知ってる。でも、プライベートファイルを検索ツールに頼らずに見つけられるように保存するのに、いつも苦労してる。じゃあ、どうやって世界中のデータや知識を整理するつもりなの?LLMっていうこの最適じゃない「応急処置」を見つけてくれて本当に良かった!

まさにその通り。この記事は、ローカルの音楽コレクションを整理しようとしたことがない人には合理的に見えるかもしれない。

図書館員たちは、これをずっと前からうまくやってるよね。

もっと言うと、それは可能性すらないと思う。私たちの脳は物事を簡単にするために分類したがるけど、残念ながら何も簡単じゃない。ワルフィンのことを考えると、発見するのにシーワールドの時代がかかった。誰がそんなことを予想できた?

伝統的なウェブ検索とLLM検索は補完的な技術だと思ってるし、これはその良い例だね。どちらにも使い道があって、どちらかで必要な情報を得られればみんな幸せだよ。ここでの例のクエリは、ウェブ検索で使われるクエリ言語の問題を示してると思う。実際には「同じ年に」という自然言語のサブクエリが含まれてるから、これを正しく評価するにはまずそのサブクエリを評価して、その情報を使って全体のクエリを評価する必要がある。Google検索やほとんどの伝統的なウェブ検索エンジンは、ネストされたクエリやサブクエリを許可しない意図的に単純化されたクエリ言語を使ってるから、この例はウェブ検索全体の問題というよりはクエリ言語の問題を明らかにしてるだけだよ。もっと良いクエリ言語があれば、もっと良い結果が得られるかもしれない。

最初の小さなイギリス植民地が設立された年に、スウェーデンのグスタフ4世アドルフ王がフランスに宣戦布告した国の旗に描かれている動物は何ですか? … 私の言いたいことは、もしすべての知識が豊富なセマンティックリンクで構造化されて保存されていたら、非常に原始的な自然言語処理アルゴリズムでも、記事の冒頭の例のような質問を解析できて、計算資源を何桁も少なくして答えを見つけられるってこと。だから、英語で投稿する人たちがいるだけじゃなくて、日付や旗、動物、人、国などの情報に対してセマンティックマークアップを提供する必要があるの? 基本的なHTMLタグやアクセシブルなマークアップを正しく使わせるのも大変なのに、これがどうやってスケールするつもりだったのか、特にテクニカルじゃない人たちがコンテンツを作る場合はどうするつもりだったの?

つまり、ウィキペディアとウィキデータってこと? これ、実際に起こったことで、LLMが賢い理由の一部だよ。私はこれをテストしたことはないけど、ウィキペディアやウィキデータ、ウィキペディアのクローンや盗用された記事がなかったら、LLMはかなりバカだったんじゃないかな。Redditの記事や基本的な情報が埋め込まれた高次の記事だけでは限界があるからね。私の予想では、ファインチューニングや重みの修正をする際に、ウィキペディアのソースを過剰に重視して、Redditのようなソースの重みを減らすのが一番簡単な方法だと思う。

これの根本的な原因は、HTMLがハイパーテキストのマークアップ用の言語ではないことです。すべてをコピーしたり圧縮したりして単一のレイヤーのドキュメントにする必要があるため、実際のマークアップを見ることはほとんどありません。たくさんのフォーマットやレイアウトがあるだけです。特定のソース素材の複数のマークアップを持つことができないので、複数の階層を追加することはありません。どんな情報構造も必然的に単純化されていて、限られた用途にしか適していません。まるで誰かがヴァンネヴァー・ブッシュのメメックスの説明を読んで、それを実現するのを積極的に妨げようとしたかのようです。彼は知識の組織化が戦後人類が直面する最大の課題だと言っていました。彼が正しかったのは明らかで、私たちはひどく失敗しました。LLMが提供するものは、私たちが持っているデータと人類の実際のニーズとの間のインピーダンスマッチです。