Google Gemma 4がiPhone上でネイティブに動作し、完全なオフラインAI推論を実現

25日前原文(gizmoweek.com)

概要

Google の Gemma 4 がiPhone上で完全ローカル動作を実現
オープンソース AIモデルがクラウド不要で利用可能
モバイル向け小型モデルの実用性が注目ポイント
Google AI Edge Gallery アプリで簡単導入
エンタープライズやプライバシー重視領域での活用期待

Google Gemma 4、iPhoneでの完全ローカルAI動作

Gemma 4 は Google の最新オープンソースAIモデルファミリー
iPhone上で 完全なローカル推論、インターネット接続不要
エッジAI 展開が未来の話ではなく、現実化した証左
競合モデルとの比較では、 Gemma 4 31B は Qwen 3.5 27B と同等レベル
Gemma 4は 約4億パラメータ 多い構成
両モデルとも一長一短があり、用途によって選択が分かれる状況

小型モデルE2B/E4Bの実用性とモバイル最適化

E2B や E4B はモバイル端末での利用を前提に設計
効率性重視 で、メモリや発熱の制約下でも安定動作
Google純正アプリでは E2B の利用を推奨
E2Bは 高速・軽量 で現実的なスマートフォン利用に最適
App Store から Google AI Edge Gallery をダウンロードするだけで利用開始可能

Google AI Edge Galleryの特徴と拡張性

単なるテキストインターフェースではなく、多機能プラットフォーム
画像認識 や 音声対話、拡張可能な Skillsフレームワーク を搭載
デモ用途に留まらず、 開発者やパワーユーザー向け基盤 として設計
ローカル推論 はiPhoneの GPU を活用
低遅延 な応答で、消費者向けハードウェアでも本格AI動作が可能と実証

オフラインAIのインパクトと今後の展望

オフライン動作は エンタープライズ用途 や 医療現場、 プライバシー重視 シナリオで特に有効
データ漏洩リスク や クラウド依存 を排除できる利点
商用価値 の高いローカルAI時代の到来を示唆
Gemma 4 は単なる技術デモではなく、 新時代のAI基盤 としての地位を確立
Googleによる 本格的なオンデバイスAI展開 の幕開け

Hackerたちの意見

残念ながら、Appleはアプリストア内でこれらのLLMの使用をブロックしているみたい。ローカルLLMを含むアプリを作ろうとしてるんだけど、2.5.2の問題で行き詰まってる。

└

もちろんAppleのルールはいつも一貫しているわけじゃないけど、今は自分のiPhoneにこの機能を使っているアプリが2つあるよ（GoogleのEdge GalleryとLocally AI）。

└

LLMを使って何をするの？

└

AppleはLLMに対してますます厳しくなると思う。すぐに人々は多くのアプリを買う必要がなくなるよ。自分で作れるからね。これってAppleのビジネスモデル全体を脅かすことになる。

└

あなたのアプリは何をしてるの？ただのLLM推論？

└

これってCactusのコンピュート関連の問題でもあるの？

└

マジで、Appleにおんぶにだっこされるのをどうやって我慢してるんだろう？みんな、彼らのITハードウェアはいいかもしれないけど、サポートする価値はないよ。

関連記事: Gemma 4 on iPhone (254コメント) - https://news.ycombinator.com/item?id=47652561

└

22日前の関連投稿: iPhone 17 Proが400B LLMを動かしているデモ (+700pts, +300コメント): https://news.ycombinator.com/item?id=47490070

俺だけ？それともこの記事、LLMの出力みたいに聞こえる？「単なるXじゃなくて、Yだ」ってパターンが4回も出てくるんだけど :v

└

:v ミレニアル世代を見つけた気がする。そんなの見たの久しぶりだ！

└

正解だね。記事をGPTZeroにかけたら、100% AIだったよ。

└

「おしっこじゃなくてうんち」って呼ばれるくらい、AIのスラップパターンが広まってるね。

└

ClaudeやGrok、その他色々にかけてみたけど、どれもこのコンテンツファームに問題があるって指摘してたよ（ソースなし、繰り返しのあるパンチの効いたフレーズ...）。お気に入りは、著者が実在の人物かどうかすら証明できなかったこと。みんな記録が見つからなかったみたい！

└

LLMが書いたかどうかなんて気にしないよ。この記事の問題は、詳細がまったくないことだね。iPhone対応モデルのベンチマークもなし。何の詳細もない。人間でもLLMでも、この記事は全然中身がないよ。

└

「gizmoweek dot com」の高い道徳基準を疑うなんて信じられないよ。

└

AIが特定の言語パターンを避けるように私たちを訓練しているみたいだね。弱い言葉の囚われには反発するよ。だって、強い言葉が次に来るから。

└

なんかダメな匂いがするな。サイトは検索ヒットを稼ぐためだけに存在してるように見える。

└

確かに、LLMの出力っぽいね。

iPhone 16 ProにGoogle Ai Edge Galleryをインストールしたんだけど、最初のベンチマークの結果はこんな感じ。GPU使用、Prefill Tokens=256、Decode Tokens=256、実行回数: 3。Prefill Speed=231t/s、Decode Speed=16t/s、最初のトークンまでの時間=1.16s、初期化時間=20s。

Gemma 4が搭載されたEdge GalleryのiOSアプリにかなりワクワクしてるけど、意図へのアクセスがないし、ウェブ検索用のカスタムプラグインを書かなきゃいけないみたい。みんな、これをうまく使う方法ってある？ChatMCPは結構いいけど、API経由のモデルしかサポートしてないんだよね。

不思議なことに、16 Plusではすごく速いんだけど、長いメッセージだとすごく遅くなることがある。熱制限のせいじゃないのにね。診断データが見れたらいいのに。

└

LLMの推論はO(tokens^2)だよ。

Gemma 4を使ってオフラインで動くポケットバイブコーダーを作ったんだ（モデルをダウンロードすればオフラインで動くよ）。iPhoneで使えるけど、4Bモデルも動かせるけどメモリの関係で2Bモデルがデフォルトになる。https://github.com/blixt/pucky 1つのTypeScriptファイルを書いて（複数ファイルは試したけど、埋め込まれたGemma 4は賢くないからね）、oxcでコードをコンパイルするよ。Xcodeで自分でビルドしないといけないから、これがApp Storeの審査を通ることはないと思う。起動すると、2つのスタートポイント（React NativeとThree.js）が含まれてるけど、UXはちょっとわかりづらい。左/右にスワイプしてビューを切り替えてね。

└

役に立つかもしれないよ - https://news.ycombinator.com/item?id=45129160 React NativeはSwiftに切り替えられると思う。

オフラインだろうがなんだろうが、Googleはあなたがそれとやり取りする時に、すべてのキー入力や電話の向き、写真、WiFiのエンドポイント、靴のサイズをアップロードしてると思うよ。あなたの体験を向上させるためにね。

└

...靴のサイズちなみに、Googleの内部トレーニングコンテンツの多くは、架空の製品「gShoe」を使っていて、その靴が集めるデータのプライバシーへの影響について議論してるんだよね :D

└

Appleはデバイス上で動くAI戦略のためにGoogleに10億ドル払ってるんだ。これがどうなるかのプレビューを見てる感じだね。

└

ソースコードが公開されたよ（今のところAndroid版だけだけど）ここで見られるよ: https://github.com/google-ai-edge/gallery 。ざっと見た感じ、アプリの使用状況（モデルのダウンロードや呼び出しなど）について、メッセージ内容なしで分析データを集めてるみたい。要するに、使われたモデルだけを記録してるってことだね。

推論がAppleのニューラルエンジンじゃなくてGPUを通ってるのに気づいたよ。Googleのエンジニアたちは、Appleの独自のテンソルブロック用のカスタムアテンションカーネルをコンパイルするのを諦めたんじゃないかな。Metalは予測可能でポートしやすいけど、専用のNPUよりもバッテリーをかなり早く消耗するんだ。ANEのバックエンドを改修するまで、これはただの派手な技術デモに過ぎないね。

└

多少の電力を消費するのは全然気にしないよ。バックグラウンドプロセスを動かすことでNPUの使用が促進されるかもしれないけど、今のところそれが急務ってわけでもないしね。24時間あなたの話を聞いてデータを分析するっていうのは、私たちのデバイスのコントロールが欠けてるから、あんまり探求したいユースケースじゃないな。

└

Googleのエンジニアたちは、Appleの独自のテンソルブロック用のカスタムアテンションカーネルをコンパイルするのを諦めたんじゃないかな。AndroidのAI Edge Galleryアプリ（Gemmaをスマホで試すための公式推奨方法）は、GPUを使ってる（NPUサポートがない）けど、ファーストパーティのPixelフォンでもそうなんだ。だから「Appleの独自のテンソルブロックとインターフェースを持ちたくなかった」ってより、単に全体的にどうでもよかったって感じだね。本当に驚くべき決定だよ。

└

Appleのニューラルエンジンって、LLMの実用的なターゲットになるのかな？厳密には不可能じゃないかもしれないけど、ANEは以前のLLMスタイルの機械学習を考慮して設計されてるんだよね。理論的にはCore MLを通じてANEでLLMを動かすことは可能だけど、モデルの変換やカスタムハードウェアの調整が必要だから、現実的にはかなりのハードルがあるよ。LLMのエコシステムはCPU/GPUの実行に標準化されてるし、今のところANEにリソースを割く気はなさそう。AppleのMLXフレームワークにもANEのサポートはないし、ANEが得意なモデルもあるけど、LLMはその中には入ってないみたい。

Gemma4はまだ電力を食うね。ほぼすべての重みをアクティブにする傾向があるから。qwen3-coder-nextは、同時に約30億のパラメータだけをアクティブにするから、ずっと少ないみたい。私の予想では、これもまだ技術デモに近い状態で、パフォーマンスはまだまだ引き出せる部分があると思うよ。

ハクソク