世界を動かす技術を、日本語で。

ローカルAIが標準であるべきです

概要

  • 現代の多くのアプリが クラウドAI依存 に陥っている現状
  • ローカルAI 活用の重要性と利点の強調
  • クラウドAI利用による プライバシー問題と脆弱性 の指摘
  • Appleエコシステムでの ローカルAIツール活用例 の紹介
  • 機能ごとに 適切なAI利用方法 を選ぶべきという提案

クラウドAI依存の問題点

  • 多くの開発者が OpenAIやAnthropic のAPIを安易に利用
  • サーバー障害や クレジットカード期限切れ でアプリが機能停止
  • 分散システム化 による運用コスト・複雑化
  • ユーザーデータが 第三者サーバー に送信されることによるプライバシーリスク
  • データ保持、同意、監査、漏洩、政府要請、AI学習など 法的・運用的負担 の増加

ローカルAI活用の重要性

  • スマートフォンの性能向上 とNeural Engineの活用余地
  • ユーザーデータを 端末内で処理 することでプライバシーを確保
  • ネットワーク依存の排除 による安定動作
  • UX機能を 分散システム化せず に実装可能
  • 「AIがどこにでもある」ことではなく、 有用なソフトウェア が目標

実例:Brutalist Reportのオンデバイス要約

  • The Brutalist Reportは ニュースアグリゲーター サービス
  • iOSアプリで AppleのローカルAIモデルAPI を活用
  • 記事要約を 端末内で生成 し、サーバー送信やログ保存不要
  • ユーザーの プライバシー保護高速処理 を両立
  • クラウドAI利用が当然視されている現状を 業界全体で見直す必要性

AppleエコシステムでのローカルAIツール

  • FoundationModels フレームワークによるローカルAI利用
    • モデルの利用可否判定
    • セッション生成とプロンプト設計
    • 記事テキストを入力し、 Markdown形式の要約 を生成
  • 長文記事の場合は チャンク分割・要点抽出・統合要約 の2段階処理
  • 端末内データ処理 に最適なワークフロー

ローカルAIの信頼性とUI連携

  • ユーザーデータを サーバー送信せず に処理可能
  • メール要約、ノートからのアクション抽出、文書分類など 信頼性重視のAI機能 に最適
  • 2000字のプライバシーポリシー よりも、そもそも不要にする設計が信頼構築の鍵

構造化出力とエンジニアリングの進化

  • Appleの新しい方針: AI出力を構造化データ として扱う
    • Swift構造体で出力形式を定義
    • 各フィールドごとに自然言語ガイドを指定
    • モデルに 型付きデータ生成 を指示
  • UI側での 一貫したデータ利用 が可能となり、 エンジニアリング的にも進化

ローカルモデルの限界と現実的な活用

  • ローカルモデルは 万能ではない が、ほとんどのアプリ機能には十分
  • 必要なのは 要約・分類・抽出・リライト・正規化 などの確実な処理
  • 全知全能なAI を求めるのではなく、 データ変換器 として活用
  • 本当に必要な場合のみ クラウドAI を選択
  • ユーザーデータは端末内に留める ことが原則
  • AIはチャットボックスではなく、 信頼できるサブシステム として実装
  • 本来は「機能」を出荷すべきであって、「分散システム」を出荷してはならない

Hackerたちの意見

LLMに関する私の問題は(哲学的な側面や経済的影響を除けば)、私たちの誰もがローカルで機能するものをトレーニングするのは難しいだろうってこと。おもちゃみたいなLLMならともかく、本当に役立つものは無理だよね。それに、膨大な計算能力が必要だし、データセットもほとんどが違法に取得されてるから。

それ、政府みたいだね。あなたの問題は、集団的な社会的努力を期待してるけど、それを公共の利益として支払うほどの資金がないってことだね。

ドメインによるね。トレーニングに必要なデータが個人用や非商業用で入手できるケースはたくさんある。その場合、トレーニングにかかる計算や時間が問題になるけど、待てるなら、消費者向けのハードウェアでも十分に役立つモデルを開発できるよ。

これはちょっと悲観的すぎると思う。私自身はあまり賢くないかもしれないけど、今の知性を得るために、全ての本やWikipediaの記事、ブログ投稿、リファレンスマニュアル、コードの行をトレーニングする必要はなかったよ。実際、そんな材料の1%もトレーニングしてないし、0.00000000001%もしてない。テキスト自体は知性の前提条件ではなかった。少なくとも、周囲を20年ほど観察するだけで知性に近づけたっていうのは、必要なのはセンサーと周りの世界だけだって証明してるよ。もちろん、人間の脳はゼロから始まるわけじゃなくて、知性が根付くための肥沃な土壌を作るために数百万年の進化があった。でも、その基本的な構造はかなり一般的で、特定のトレーニングセットに基づいているわけではないように思える。人工的に進化させることもできるかもしれないね。

現在の技術では全部は無理だけど、LoRAはファインチューニングにすごく優れてるし、ハイエンドのゲーミングPCで数時間で生成できるから、基本モデルが自分の言語にあれば、持ってる電子機器で月に数個のLoRAをトレーニングするのに十分な計算能力があると思うよ。将来的には、一般的な家庭用コンピュータが現代のサーバー並みの能力を持つようになれば、家で全LLMをトレーニングできるようになるだろうね。

ローカルで再現できない技術がたくさんあるから、LLMも特別ではないと思う。大手LLMメーカー、小規模LLMメーカー、アーティザナルなLLM、LLM好きな人、もちろんLLMの消費者もいるよ。どんなことでも同じだね。

これが重要なのは、ローカルでモデルを運用していても、それは依然としてプロプライエタリなモデルだからだよ。何でトレーニングされたのか、トレーニングデータがどうラベル付けされているのか、ガードレールは何か、どんなバイアスがあるのか、そういうことには一切関与できないんだ。

それは確かに心配な点だけど、ここではトレーニングと推論を分けて考えたいな。

一般の人たちにとって、今のローカルAIに対する感情は、数十年前のオープンソースに対する感情と同じだよね。いくつかの製品では、有料のソリューションがオープンソースを完全に無視されるほど進んでた。なんでわざわざ?って感じで。その後、SaaSや他のプラットフォームが登場して、今ではほとんどの人にとってそれが間違ってるのは明らかだよね。例えば、AnthropicやOpenAIに依存してるのは本当に異常だよ。ほとんどの人はそれを受け入れてるけど、気にしないか、中国がオープンウェイトをやめないことを願ってるだけ。オープンウェイトのビジネスモデルは非常に新しく、国や研究所の間で権力争いがあって、ほとんどの人から具体的な監視なしに途方もない金額が動いてる。これは非常に危険な賭けだよ。今はほとんどの人にとって信じられない価値が手に入るけど、理由もなく突然止まるかもしれない。

オープンウェイトAIのビジネスモデルって何?ないと思うよ。せいぜい、売ってるより進んだモデルの広告として機能するくらいじゃない?オープンソースとの大きな違いは、自由な時間とモチベーションだけではLLMをトレーニングできないってこと。たくさんのデータと計算が必要だし。間違ってるといいな、私はオープンウェイトの未来の方が好きだから。

これには同意できないな。コストが重要な要素になるか、無料だけど質が悪い選択肢が魅力的でアクセスしやすくなると、ユーザーの行動がローカルにシフトすることがあるよ。例えば、写真から背景を削除したり、PDFのOCRをしたりするのに、こういうことをカジュアルに使うのに有料サービスを使う人ってどれくらいいる?

一般の人たちは「ローカルAI」が存在することすら知らないんじゃないかな。

アメリカ政府が自分たちのローカルAIを導入するのを待ってるんだ。それが最終的にはオープンソース化につながると思う。税金で賄われてるからね。それにNSAは何十年分ものインターネットデータを持ってるから、トレーニングには困らないし、オープンウェイトはどの企業のものとも同じくらい良いと思う。

それは非常に危険な賭けだね。今はほとんどの人にとって信じられないほどの価値があるけど、予期せぬ理由でそれが止まることもある。消費者向けハードウェアで現在利用可能な最高のオープンウェイトのLLMをずっと使い続けるのを妨げるものは何?95%のユースケースには十分な性能があるし、使用期限もない。私が見る限り、「危険」とは次のレベルのものが出てこないことだけど、その影響は非常に小さいよ。

5070TIのカードを2枚持ってるんだけど、分散トレーニングモデルのために時間を喜んで提供したいと思ってる。問題はトレーニングデータなんだ。2022年以前のデータには制限をかけたい。どうやって調整するかは分からないけど、こういうことに関わりたいな。SETIみたいに、LLMのために。

本当に必要なときだけクラウドモデルを使うべきだ。問題は、ローカルのものを調整する時間をかけるよりも、SOTAモデル(特に補助金が出てる場合)を使う方がずっと簡単だってことだ。コーディングエージェントでこれに気づいたけど、最新のバージョンを高い設定で使うべきじゃないかもしれないけど、結局は時間が短縮できて、労力も少なくて、ほぼ同じ価格で済むから使っちゃうんだよね。実際、主要なベンダーが実際のトークン使用量に基づいて請求し始めるまで、ローカルAIへの本格的な取り組みは見られないと思う。

私もローカルモデルのパフォーマンスが良くないって感じてる。LLMに関するスレッドが立つたびに、コメント欄には最新のDeepSeekやqwen、その他のモデルがOpusと同じくらい良い結果を出してるって主張する人がたくさんいるけど、私の経験では全然そうじゃない。オープンソースのモデルは、Claudeに比べてちょっとでも複雑なことを頼むと完全にダメになる。90年代のLinuxの状況に似てる気がする。なんとか動くけど、家庭用ユーザーには本当に向いてなかった。でも、すべてが大丈夫だって主張する人がたくさんいたのは、主にイデオロギー的な理由からだと思う。

問題は、ローカルモデルの調整に時間をかけるよりも、SOTAモデル(特に補助金が出ている場合)を使う方がずっと簡単だってことだ。それは問題じゃなくて、むしろ機能だよ。今、無料のプロバイダーのタブを8個くらい開いてる。ChatGPT、Claude、GeminiがSOTAモデルだね。どれかを使い切ったら、次に移るのに全く問題ないよ。これを一日中やって、特定の機能(またはクラス)を自分のコードに実装させることができる。実際にソフトウェアを書く方法を知ってるから、エージェントをループで動かして一日で全部を生成する必要はないんだ。ウェブチャットボットを使ってコピペするだけで、1時間に何千行ものコードを生成できるし、コードの強いメンタルモデルを持っているから、必要なところに行って変更もできるんだ。[1] --------------------- [1] 今朝、Pythonプロジェクトでそれをやったよ。必要なものをデザインしたから、各生成は単一の関数を促す形だったんだ。今朝、何かを追加する必要があったとき、チャットボットに頼むことすらせず、直接正しい場所に行ってやったよ。仕様から全部を生成する場合は、そうはいかないよね。

一番抵抗の少ない道が勝つことが多いよね、特に価格が本当のコストを隠しているときは。

でも、数行下には、ChromeがローカルのLLMモデルを使っていて、数GBのスペースを使うことに対してみんなが騒いでる投稿もあるよね。どっちにしても文句言われるって感じだね。

事前に聞かずにギガバイト単位の帯域幅やストレージを使わない方がいいんじゃない?

これはちょっと変な意見だね。オプトインじゃないなら、ブラウザに無理やり組み込むのは良くないよ。ローカルのLLMを動かすアプリがデータをダウンロードすることに誰も怒ってないでしょ。

「自分が選んでローカルのLLMを動かしている」と「ブラウザが勝手にローカルのLLMを動かしていて、自分には選択権がない」の違いが分からないの?理解できないの?それに、自分が選んで動かすLLMはモンスター級のマシンが必要で、Googleがブラウザに入れたものよりも遥かに能力が高いんだけど。まあ、Chromeは使ってないから自分には関係ないけど、その違いが分からないのは驚きだね。

そんなに良いアイデアなら、なんで有効化する前に教えてくれなかったの?気づかれないように避けてた気がする。もし気づいてたら、すぐに無効にしてたと思うし。それに、タスクマネージャーに実際にダウンロードしてるのが表示されないのはなんで?この活動を隠そうとするのはどういうこと?デスクトップにconkyを使ってるから、すぐに気づいて、自分のコンピュータで好みのアクション、つまりすぐに無効にすることができたのに。

ちょっと誠実さに欠けるね。みんながローカルモデルのインストールに騒いでるわけじゃない。ユーザーの自律性がないことに対して怒ってるんだよ。静かにインストールするんじゃなくて、モデルをダウンロードするオプションをくれればいいのに。それほど難しくないでしょ。これが他のローカルオプションのやり方だよ。

みんなが何に不満を持ってるのか理解するためにコメントを読むことをおすすめする。このコメントは議論の本質についてかなり不誠実だよ。

そうなると思うし、その瞬間はそんなに遠くないよ。進展はすでに始まってる。まず、大規模データセンターには高性能なLLMが導入されるし、今は「各サーバーにH100がいくつかある」状態にしっかり入ってる。徐々に「MacBook ProやStrix Haloに128GBのVRAM」へと進んでいく。来年のうちに、「高価なリモートLLMで計画を立てて、ローカルの遅いけど人間よりは速いLLMで実行する」というパターンが企業の標準になるだろう。そして「ローカルLLMをすべてに使うのが十分良い」という方向に進むはず。そうなったら、今の「クラシッククラウド」と同じような均衡ができる。自己ホスティングするか、柔軟性とスピードのためにお金を払うかって感じだね。問題は、今の計算能力のブームがローカルホスティングによってどれだけ影響を受けるか、そしてそれが市場に何を意味するのかってことだね。

これは単なる妄想だね。Kimi 2.6を運用するのに月に20-30万かかる。トークンは1mmあたり3ドルで売られてる。利益を出すためには、月に1,000ドル未満で150トークン/秒で推論を実行できる必要がある。人々は、そこそこの能力のモデルをホスティングするのがどれだけ高くつくか、そしてその利用がどれだけ補助されているかを理解していないと思う。消費者向けのハードウェア(実際に手が届く価格のもの)では、限界があるよ(4090が2つとか、128GBのMacBookは消費者向けとは言えないし、平均的な人には信じられないくらい高い)。それに、まだ動かせるモデルは「十分良い」とは言えない、実際にはほとんど役に立たない。人々は、億万長者がずっと寛大で、10対1や20対1の損失比率で推論を補助してくれる未来に賭けている。でも、それは必ず終わるし、たぶんすぐに終わるよ。このアイデア、つまり企業が月に200ドルで5時間、2mmのGPUにアクセスさせてくれるのは持続不可能だよ。今はあなたを引き込もうとしてるけど、騙されないで。勉強して、一生懸命働いて、汗をかけば、きっと報われるから。スイスで月に1個手作りの時計を作る人は、中国で製造ラインを運営して5万稼ぐ人よりずっと多く稼いでる。自分でコードを書けばいいんだよ。億万長者の思考機械にアクセスすることに未来を賭けないで。知性、知識、能力は交換可能じゃない。LLMのブームは、そうであるかのようにあなたを納得させるための嘘だよ。

ローカルモデルの最大の影響は、リモート推論が唯一の選択肢になるのを防ぐことかもしれないね。

新しいPrompt APIがローカルモデルを使って何ができるかのデモをいくつか持ってるよ:https://adsm.dev/posts/prompt-api/#what-could-you-build-with... OPが言ってるように、ユーザーが所有するデータを変換する制約のある環境では光るけど、もっとオープンエンドな用途にはあまり役立たないね。

うん、ChromeのPrompt APIをローカルLLMの良い例として扱うのはおすすめしないよ。まあ、悪くはないけど、本当に弱い。1年前の8bモデルの方がいくつかの点で優れてるし、最近のモデルはかなり良くなってる。

データ変換にLLMを使ってるけど、決定論的なプロセスの方がずっと向いてるのに、1,000ワットの電源を使ってるって、すごいね。

Appleのエコシステムの外でローカルAIの標準化されたAPIが存在してほしいな。ChromeのPrompt APIはその半分くらい進んでる。* Windowsのネイティブアプリ用のローカルAIの答えは何? * LinuxのローカルAIの答えは何? オープンウェイトモデルの質が高いから、これはLinuxにとって大きなチャンスだと思う。デザインが分裂して、互いに互換性のない答えが十数個出てくる前に、何か答えが出てくることを願ってるよ。

あの質問について調べたんだけど、apfelのためにね。https://github.com/Arthur-Ficial/apfel で、標準化されたAPIはOpenAIのAPIだから、それを使うことにしたよ。

投稿の例は、ローカルモデルが成功するためには「十分良い」ものであって、フロンティアモデルと競争できるほど大きくなくてもいいっていう僕の理論を裏付けてる。小さなタスクをうまくこなせて、消費者向けのデバイスでちゃんと動く必要があるんだ。できればスマホでも動けば最高だね。ローカルのLLMを使った実験で、モデルのサイズを大きくするのはいいけど、ほとんど役に立たないモデルを有用なものに変える本当の要素はツールを使えることだって気づいた。モデルにウェブを検索してウェブページを取得する能力を与えたら、より大きなモデルを使うよりもはるかに多くのハルシネーションを解決できたよ。しかも、トレーニングのカットオフもないしね。確かに、大きなモデルはツールを使うのが得意かもしれないけど、僕は小さなモデルでも十分だと思うことが多いんだ。

プライベートAIの議論とローカルAIの議論は分けるべきだと思う。大きなLLMを運用する現実的な選択肢は、オンラインの大きなサーバーだけど、それがプライベート企業だけが運用するべきだってわけじゃない。良いテナント隔離保証(理想的にはゼロトラスト)を提供して、デプロイやメンテナンスが簡単な自己ホスティングの推論ソリューション(AIのためのPlexみたいなもの)が、プライバシーのための僕の選択肢だね。正直言うと、これについては全く調査してないし、どれくらい実現可能かも全然わからない。もしかしたらもう存在していて、参加すべきDiscordサーバーがあるのかも? 編集:ここで言う必要はないけど、すごいのはオープンモデルが最高の商業モデルと同じくらいのレベルにあるってこと。だから、最も難しい部分はすでに解決されているはずなんだ。

それが目標だとは思うけど、まだ早すぎるよ。昔は音声認識にデータセンターのサーバーがたくさん必要だったけど、今は完全にデバイス上でできるようになった。そこに到達するまでには少なくとも5年はかかると思うし、DRAMはコスト削減において大きなブレークスルーが必要だね。