世界を動かす技術を、日本語で。

ブレット・ビクターが語る、現在のAIのトレンドが彼の仕事と相反する理由

概要

Dynamicland Foundationは、人間中心の動的メディアの普及によるリテラシー向上を目指す独立系非営利研究所。 Realtalkは現実世界で協働しながら物理素材を用いて計算モデルを探求できる新しい計算環境。 Dynamiclandは物理空間で新しい計算文化を育む場所であり、現在は次世代拠点を開発中。 参加方法は寄付・現物寄付・協働・ボランティア・訪問など多岐にわたる。 理念は「人間的・共創的・現実世界志向の動的メディア」の実現。

Dynamicland Foundationとは何か

  • Dynamicland Foundation :普遍的なリテラシーを可能にする人間的な動的メディアの発明と、その文化の育成を使命とする独立非営利研究所。
  • 活動内容 :人間中心の計算環境の発明、教育・コミュニティ拠点の構築。
  • 所在地 :2017年からCovidまでOaklandで活動、現在はBerkeleyで新拠点準備中。
  • 運営体制 :少人数の常勤研究者とボランティア、協力者による運営。
  • 現状 :主なプロジェクトは「communal science」と「Realtalk-2024」。

Realtalkとは何か

  • Realtalk :Dynamicland研究者が発明した計算環境(OS・言語・哲学)。
  • 特徴 :現実世界で人々が物理素材を使い協働しながら計算モデルを創作・探求。
  • 自己言語実装 :Realtalk自体もRealtalkで作られ、日常業務も全てRealtalk上で実施。
  • 日常利用 :全ての成果物やウェブサイトもRealtalkで物理的に存在。

Dynamiclandとは何か

  • Dynamicland :新しいメディア文化を育む物理的空間。
  • 活動履歴 :Oaklandのコミュニティスペースで1000人以上が多数の独自プロジェクトを創出。
  • 現在 :新しい「communal science」拠点をBerkeleyで準備中、他拠点も計画段階。

参加方法

  • 寄付 :501(c)(3)非営利団体として全額研究資金に充当、寄付は税控除対象。
  • 現物寄付 :機材・サービス・不動産なども歓迎、ハードウェアベンダーとの協賛も相談可。
  • ボランティア・協働 :小規模スタッフのため調整は困難な場合もあるが、提案は歓迎。
  • 採用 :現在は新規雇用なし。
  • 訪問 :Oakland拠点は閉鎖、Berkeley新拠点は準備中で一般公開は未定。

人間的な動的メディアとは

  • メディアの定義 :人が思考を表現・共有する手段。例:スピーチ・絵・動画・数式など。

  • 動的メディア :計算によるアイデア表現・共有。能動的な探求やシミュレーションが可能。

  • 人間的動的メディア :共創的で全員が主体性を持てる、現実世界と密接に結びついた動的メディア。

    • 共創的 :同じ物理空間で対面・共同作業・暗黙知・相互理解を促進。
    • 主体性 :誰もがシステム全体を自由に閲覧・変更・拡張できる。
    • 現実世界 :素材が物理的に存在し、人間の全感覚・身体性を活用。
  • 言葉選びの理由 :既存語では誤解を生むため「authoring(著述)」や「dynamic medium(動的メディア)」を使用。

Realtalkの理念と概念

  • コアバリュー

    • 可視性 :全てが見える、隠し事なし、ブラックボックス排除。
    • 物理性 :持続性・安定性・手触り・直接操作・仮想でなく実体。
    • 空間性 :空間全体に広がる、歩き回れる、スケール自在。
    • 共創性 :多人数共同作業、自然なコラボレーション、孤立しない。
    • 著述性 :誰でも何でも変更・拡張可能、読み書き対称性、アプリやユーザーの概念不要。
    • 即興性 :即席で組み合わせ・再解釈・リミックスが可能。
    • ローカル性 :分散・カスタム・コミュニティ主導・地域知重視。
    • 現実志向 :現実世界のモデリングと実験、バーチャルやシミュレーションでなく実体重視。
  • Realtalkの作業モデル

    • 現実世界の状況認識と対応 :ボードゲームのように物理カードで「これを見たらこうする」を定義。
    • 全てがカード :システム全体がカードの組み合わせで拡張・変更自在。
  • インターフェース概念の否定

    • 「コンピュータ」や「インターフェース」を消す試み。計算は物理素材の新たな性質と捉える。
    • 物理オブジェクト自体がプログラムを持つ。ハードウェアは環境を作るだけ。
    • 複雑性の劇的削減 :多くは物理的工夫や配置で実現、コード不要。
  • OSか?

    • 「計算環境」と呼ぶが、必要に応じて「OS」と表現

Dynamiclandと社会・他技術との関係

  • オープンソース・アクセシビリティ :全ての人が参加・変更可能な設計思想。
  • テクノロジー至上主義への批判 :現実世界・地域知・人間性重視。
  • プライバシー配慮 :分散型・ローカル志向。
  • 他技術との違い
    • AI/AR/VR/従来型コンピュータとの違い :仮想でなく物理世界での共創性・主体性・現実感を重視。

ご要望があれば、個別のセクションや詳細についてもさらに深掘り可能です。

Hackerたちの意見

ヴィクトル先生やケイ先生がハッカーニュースでアップボートされるのを見るのは、何よりも満足感があるよね。

「私たちは、完全に可視化され理解できるコンピュータシステムを目指しています。理論的には完全に理解できるもの、例えばLinuxカーネルのようなものでも、実際に使う前にソースコードを読むのは現実的ではありません。私には、これが本当に意味不明です。従来のプログラミングでも、私たちが強力なシステムを持っているのは、レイヤーアプローチを使っているからです。これらのレイヤーを見て理解することはできますが、単一の人間には全体を把握するのは完全に無理です。」

それは「理解」と「把握」を混同しているからだよ。チェーンの中のすべてのコンポーネントやその機能、どう動くか、どこに脆弱性があるか、または能力が欠けているかを理解することはできるけど、インストールするすべてのソースコードをレビューする必要はない。把握するためには、基盤となるソースコードに非常に詳しくなければならないし、どうコンパイルされるか、ハードウェアとどうやり取りするかなども理解しておく必要がある。これが著者が言いたいことの核心だと思う:LLMはその性質上、理解できないブラックボックスなんだ。LLMが出力に至った過程を理解することは決してできない。なぜなら、その設計上、その可能性が現れることを禁止しているから。これはトークン予測マシンで、その基盤となる論理は数学者が単一のクエリを逆エンジニアリングするのに数十年かかるように設計されている。著者が言いたいのはそれだと思う。LLMが出力に至った過程を理解できない以上、計算や知識の信頼できるエージェントとして頼ることはできない。正しい答えを出すことが多いけど、どうしてその答えを知っているのか、どうやってその結論に至ったのかを説明できない人間を信頼しないのと同じように、LLMも同じようには信頼すべきではない。

理論的には理解可能だけど、実際には大きすぎるシステム(Linux)と、内部の推論が設計上本質的に不透明なシステム(現代のニューラルネットワーク)との間には根本的な違いがある。

そうだね、大規模なコードベースが期待を裏切ると、絡み合ったコードの網が問題になる。アラン・ケイのViewpoints Researchがこれを研究していて、彼は「Tシャツサイズのアルゴリズム」を提案したんだ。短いルールを使って、 fancyなデスクトップのワードプロセッサやプレゼンテーションソフトを作れるって。From NAND to Tetrisみたいなプロジェクトもあって、フルスタックを理解することが可能だって示してる。これがもっと広がったり、深まったりすることはあるのかな?もちろん、ブレット・ビクターが言ってるのはそこだよ。コードが間違ったときだけじゃなくて、最初からもっと修正しやすくてクリエイティブにできるようにするためにね。(マギー・アップルトンのエッセイ/トーク「Home-Cooked Software and Barefoot Developers」を見てみて。)セレニティOSみたいなプロジェクトは、「小さな」ソフトウェアがどれだけ強力になり得るかを示してる。例えば、そのスピンオフプロジェクトのレディバグブラウザは、Chromiumに比べてコードの行数がずっと少ないのに、レディバグチームは次々と仕様を実装できてるみたい。最後に見たとき、彼らはiOSでブラウザとして出荷するためにAppleが要求する最低限の機能セットを満たすところまで来てたよ。

なんか共感するけど、RealTalkは簡単なオブジェクト認識とLLMを使えばもっと良くなると思う。RealTalkを触ってみて感じた課題の一つは、相互運用性なんだ。目指しているのは「空間レイヤー」を使って、プログラムがどう動くべきか、世界とどうインタラクトするかの直感を育てることなんだけど、これがうまくいくと本当にクールなんだよね。でも、物同士が組み合わさった時のインタラクションに関する重要な直感は、オブジェクトが互換性を持つようにプログラムされていないと機能しない。例えば、風船は「鋭いものに触れるとパンクしたい」と思ってるし、サボテンは「私は鋭い」と言いたがってる。でも、誰かが「私は尖ってる」と言う針のカードをプログラムしてしまったら、風船とは満足のいく形でインタラクトしない。ダイナミックランドのお気に入りの例を使うと、インタラクティブなチャートがあって、そこに「メキシコカード」をフィルタースポットに置くと、異なる国の人口が表示されるとする。じゃあ、同じスポットにメキシコの国旗のカードを置いたらどうなると思う?それとも「メキシコ」とだけ書かれたカードを置いたら?そのインタラクションが「うまくいく」方が良くない?ビジュアルLLMがこれを助けることができる。タグを付けたり、オブジェクトに関する二者択一の質問に答えたりする薄いレイヤーがあれば、プログラムの相互運用性が大幅に向上すると思う。

これは「アイテムを一つのゲームから別のゲームに持っていく」っていうNFTブームの問題に似てるね。全てが全てに対応する必要があるから。Dynamiclandの場合、その全体をLLMに通して、鋭い効果を別のカードで同じようにトリガーさせると、インタラクションが完全に隠れてしまうと思う。デザイナーとユーザーの両方にとって理由が全く不明なまま、うまくいくかもしれないし、いかないかもしれないね。

ダイナミックな世界でこれを解決する方法は、風船を見て、そこにコードがどこかにテープで貼ってあるのを確認することだよ。コードを読んで、何を探しているのかを理解して、そのトリガーを書くんだ。

ダイナミックランドの動画だよ。[1] テキストの説明だけじゃあまりわからないけど、まだクールなデモレベルだね。これをどうスケールするんだろう? [1] https://www.youtube.com/watch?v=7wa3nm0qcfM

「スケール」ってどういう意味?それは分散型で、小さな共存するグループのエージェンシーを促進するように設計されてるんだ。典型的な「スケール」マインドセットはその逆で、スケーリングをする人たちがエージェンシーを持っていて、残りの人たちは自分が選ばなかったものを与えられるだけなんだ!もしシステムが信頼性のないデモなら、それはエージェンシーを促進するかもしれない。40年前に車を修理できたのと同じように、今はできないのは、スケールされた企業プロセスのせいだよ。

ダイナミックランドを直接体験したことはないけど(動画で見ただけ)、今までのデモに関して一つ気になることがあるんだ。それはプロジェクターを使っていること。だから、投影された光のために部屋が暗くなきゃいけないし、頭や手、体をその光の邪魔にならないようにしなきゃいけない。

確かにそうだけど、現代のレーザープロジェクターはすごく明るいよ。ブラインドを開けて、太陽が差し込んでる状態でも、メインのコンピュータディスプレイとして使っても問題ない。遮蔽は確かに問題だけどね。

プロジェクターは、明るい部屋でも見えるくらい強力だったよ。ほとんどのプロジェクターセットアップで部屋を真っ暗にしたい理由はコントラストのためで、投影された画像で一番暗い部分は周囲の表面の明るさだからね(最も明るいのはプロジェクターからのフルパワーの表面)。その妥協を受け入れれば、超暗い部屋は必要ないよ。厳密な光のコントロールが推奨されるのは、合理的な黒レベルを求めるメディア視聴のためだし。手を光から外しておく必要はあるけど、それもインタラクションの一部になるかもね。もし普及したARグラスやホログラムが出てきたら、ブレットはそれをDLに統合するだろうね。[0] これが少しジレンマになるんだけど、暗く見える表面が必要だけど、プロジェクターの色を完璧に反射する必要があるから、白いスクリーンが理想で、プロジェクター以外の光はゼロにしたいんだ。

「頭や手、体をそれから離しておく必要がある。」こういうシステムを見たことがあるけど、異なる角度から複数のプロジェクターを使って、スペースと角度に合わせてキャリブレーションしてるんだ。遮蔽を防ぐのに非常に効果的で、思ったより少ない数で済むよ(ValveのLighthouse技術も見てみて)。残念ながら、そうするのは高価で大きくて、動かすたびに再キャリブレーションが必要なんだ。

実際には光のレベルは問題じゃなかったよ。昼間に実際のインスタレーションを見に行ったとき、建物は自然光で明るく照らされてて、プロジェクションもすごく見やすかったから、そのことを全然考えなかった。

すごいプロジェクトだね。最近、自分のホームブリュー版をブラウザで動かすためにかなり進展があったんだ。人にシェアするためにね。近いうちに本物(物理的なもの)にもう一度挑戦するつもり。今の進捗はここだよ:https://deosjr.github.io/dynamicland/

今初めてDynamiclandについて読んでるから、もしかしたら明らかなことを理解してないかもしれない。テキストの説明はあまり役に立たないけど、写真を見る限り、物理的なオブジェクトや紙を動かしてプログラミング的なことをする場所ってこと?可視性についてはこう言ってるね:>「人々が関わっているシステムを理解し、完全にコントロールできるようにするために、私たちは全てが見えて理解できるコンピュータシステムを目指しています。できるだけシンプルで、透明で、信頼できて、魔法的でないものを。」でも、プロジェクターとカメラのシステムのプログラミングは、一般の人にはかなり難しいんじゃないかな?AIの何がそんなに違うの?

Dynamiclandはある意味でブートストラップされてるね。[0] 他の言語でコードを書くための最初のコンパイラ/インタープリタを書くのと同じように、その後自分の言語で書く感じ。カメラとプロジェクターのシステムを動かしているコードは、物理的に印刷されたプログラムからも動いてるんだ。動画の中にはDynamiclandのコア「OS」とでも言うべき壁が見えるよ。ビジョンは素晴らしいと思うけど、プロジェクター技術と自分のバージョンを設定するコストに妨げられてる。物理的に結びついてるから、ブレットは(個人的には頑固に)このコンセプトに専念していて、DLに直接行けるコミュニティが育ってないんだ。例えばVR用のバージョンがあったら面白いし、いつかARが普及してどこでも使えるようになるかもね。[0] ちょっと面倒なのはオープンソースじゃないから、自分のバージョンを簡単に作ったり、調べたりできないことだ。似たようなシステムを作ろうとした試みはいくつかあったけど、ブレットのDynamiclandほど長続きしたり成功したものはなかったね。

RealTalkには面白い機能があって、もっと詳しく説明した記事があればいいのにと思う。例えば、まだ存在しないかもしれない機能に話しかけるスクリプトを書けるんだ。紙を動かしてプログラミングするのは注目されるべきだけど、実際にはもっといろいろあるんだよね。

本当にLLMsに驚かされてる。私はずっとコーディングを学ぶのに苦労してきたアーティストなんだ。コンピュータサイエンスの概念は理解できるけど、実際にコードを書こうとすると、脳が存在しないことにしてしまう。20年以上、何度も挑戦したけど、初心者向けの演習をいくつか超えることができなかった。コーディングが私に与える頭のスペースが本当に耐えられない。昨夜、Google Fontsみたいにクールなフォントをサイトに届けるカスタムCDNを作ったり、カスタムコードを使って素敵なサイトを作ったりしたんだけど(ほとんど理解しながらね)、一番のポイントは…楽しかった!人生でこんなことをしたことは一度もなくて、ChatGPTの助けを借りて3時間くらいでできたんだ。すごいよ。AIは本当に自分次第で、脳の働きに合った方法で学べる素晴らしいツールだと思う。学校はAIを効果的に使う方法を教えるカリキュラムを持つべきだよ。創造性のための力を倍増させる存在だね。コンピュータがこんなに楽しいと感じたのは久しぶりだ。

カスタムコードを使って素敵なサイトを作ったりしたんだけど(ほとんど理解しながらね) 文脈からすると、JavaじゃなくてJavascriptのことだね。

面白いね、CDNは効果的にするためにたくさんのインフラが必要だけど、どうやってそれを設定したの?(あなたかLLMが)

いいね!みんなが望んでることだけど、コンテンツの再利用や監視、公共の議論への干渉なしでね。もっと楽しくて、子供たちに間違ったことを教えず、高価なチップでいっぱいのデータセンターも必要なくて、センセーショナルな見出しでニュースに載ることもないバージョンを考えてみて。

彼らが作る親しみやすさは好きだな。個人的にはコーダーとして、AIの体験は全然楽しくないけど、他の人が楽しんでるのは理解できる。これらのプロジェクトにAIを使ってさらなる変更を加えることを試したことはある?

楽しい態度が好きだな。家族の誰かも似たようなことを言ってたけど、いつも警告するのは、強力なAIには深刻な結果が伴うってこと。私たちはその結果に備えているの?AIが私たちの生活や生計にどこまで関わることを望んでいるのかな?

HNの多くの人たちは、事実に向き合うのが苦手な盲点があると思う。確かに、AIには今のところ限界があって、認知タスクの万能薬ではない。でも、特定の使い方ではものすごく役立つし、ChatGPTやAIスタートアップの急成長がその証拠だよね。多くの人は「これは全部偽物だ」とか「VCの評価を支えるための人工的な盛り上がりだ」と主張するけど、実際に数十億の収益を見ても「それは本物じゃない」と思ってる。LLMを通じてスキルを上げたリアルな人たちも同様に、AIのユーティリティに特有の方法で成長してるのに。もし彼らがまず現実に向き合えたら、AIの影響についての評価を信じられるんだけどね。

「私はアーティストです」 これが一番ワクワクしてるポイントなんだけど、近い将来、プロダクティビティは誰が一番クリエイティブか、誰が一番面白い問題を持っているかに関係してくると思う。特定のツールチェーンやコンパイラ、言語の後ろで何時間も過ごしたかじゃなくてね。実用的な問題の解決策は、ソフトウェアエンジニアを通さなくても良くなる。すごく面白くなるだろうし、私の仕事がなくなっちゃうかも。

ちょっとhttp://tunes.orgを思い出すな(他にもたくさんあると思うけど)。コンピュータやオペレーティングシステムのアイデアを深く探求するのって、めっちゃクールだよね。