世界を動かす技術を、日本語で。

Google Gemma 4がiPhone上でネイティブに動作し、完全なオフラインAI推論を実現

概要

  • GoogleGemma 4 がiPhone上で完全ローカル動作を実現
  • オープンソース AIモデルがクラウド不要で利用可能
  • モバイル向け小型モデルの実用性が注目ポイント
  • Google AI Edge Gallery アプリで簡単導入
  • エンタープライズやプライバシー重視領域での活用期待

Google Gemma 4、iPhoneでの完全ローカルAI動作

  • Gemma 4Google の最新オープンソースAIモデルファミリー
  • iPhone上で 完全なローカル推論、インターネット接続不要
  • エッジAI 展開が未来の話ではなく、現実化した証左
  • 競合モデルとの比較では、 Gemma 4 31BQwen 3.5 27B と同等レベル
  • Gemma 4は 約4億パラメータ 多い構成
  • 両モデルとも一長一短があり、用途によって選択が分かれる状況

小型モデルE2B/E4Bの実用性とモバイル最適化

  • E2BE4B はモバイル端末での利用を前提に設計
  • 効率性重視 で、メモリや発熱の制約下でも安定動作
  • Google純正アプリでは E2B の利用を推奨
  • E2Bは 高速・軽量 で現実的なスマートフォン利用に最適
  • App Store から Google AI Edge Gallery をダウンロードするだけで利用開始可能

Google AI Edge Galleryの特徴と拡張性

  • 単なるテキストインターフェースではなく、多機能プラットフォーム
  • 画像認識音声対話、拡張可能な Skillsフレームワーク を搭載
  • デモ用途に留まらず、 開発者やパワーユーザー向け基盤 として設計
  • ローカル推論 はiPhoneの GPU を活用
  • 低遅延 な応答で、消費者向けハードウェアでも本格AI動作が可能と実証

オフラインAIのインパクトと今後の展望

  • オフライン動作は エンタープライズ用途医療現場プライバシー重視 シナリオで特に有効
  • データ漏洩リスククラウド依存 を排除できる利点
  • 商用価値 の高いローカルAI時代の到来を示唆
  • Gemma 4 は単なる技術デモではなく、 新時代のAI基盤 としての地位を確立
  • Googleによる 本格的なオンデバイスAI展開 の幕開け

Hackerたちの意見

残念ながら、Appleはアプリストア内でこれらのLLMの使用をブロックしているみたい。ローカルLLMを含むアプリを作ろうとしてるんだけど、2.5.2の問題で行き詰まってる。

もちろんAppleのルールはいつも一貫しているわけじゃないけど、今は自分のiPhoneにこの機能を使っているアプリが2つあるよ(GoogleのEdge GalleryとLocally AI)。

LLMを使って何をするの?

AppleはLLMに対してますます厳しくなると思う。すぐに人々は多くのアプリを買う必要がなくなるよ。自分で作れるからね。これってAppleのビジネスモデル全体を脅かすことになる。

あなたのアプリは何をしてるの?ただのLLM推論?

これってCactusのコンピュート関連の問題でもあるの?

マジで、Appleにおんぶにだっこされるのをどうやって我慢してるんだろう?みんな、彼らのITハードウェアはいいかもしれないけど、サポートする価値はないよ。

関連記事: Gemma 4 on iPhone (254コメント) - https://news.ycombinator.com/item?id=47652561

22日前の関連投稿: iPhone 17 Proが400B LLMを動かしているデモ (+700pts, +300コメント): https://news.ycombinator.com/item?id=47490070

俺だけ?それともこの記事、LLMの出力みたいに聞こえる?「単なるXじゃなくて、Yだ」ってパターンが4回も出てくるんだけど :v

:v ミレニアル世代を見つけた気がする。そんなの見たの久しぶりだ!

正解だね。記事をGPTZeroにかけたら、100% AIだったよ。

「おしっこじゃなくてうんち」って呼ばれるくらい、AIのスラップパターンが広まってるね。

ClaudeやGrok、その他色々にかけてみたけど、どれもこのコンテンツファームに問題があるって指摘してたよ(ソースなし、繰り返しのあるパンチの効いたフレーズ...)。お気に入りは、著者が実在の人物かどうかすら証明できなかったこと。みんな記録が見つからなかったみたい!

LLMが書いたかどうかなんて気にしないよ。この記事の問題は、詳細がまったくないことだね。iPhone対応モデルのベンチマークもなし。何の詳細もない。人間でもLLMでも、この記事は全然中身がないよ。

「gizmoweek dot com」の高い道徳基準を疑うなんて信じられないよ。

AIが特定の言語パターンを避けるように私たちを訓練しているみたいだね。弱い言葉の囚われには反発するよ。だって、強い言葉が次に来るから。

なんかダメな匂いがするな。サイトは検索ヒットを稼ぐためだけに存在してるように見える。

確かに、LLMの出力っぽいね。

iPhone 16 ProにGoogle Ai Edge Galleryをインストールしたんだけど、最初のベンチマークの結果はこんな感じ。GPU使用、Prefill Tokens=256、Decode Tokens=256、実行回数: 3。Prefill Speed=231t/s、Decode Speed=16t/s、最初のトークンまでの時間=1.16s、初期化時間=20s。

Gemma 4が搭載されたEdge GalleryのiOSアプリにかなりワクワクしてるけど、意図へのアクセスがないし、ウェブ検索用のカスタムプラグインを書かなきゃいけないみたい。みんな、これをうまく使う方法ってある?ChatMCPは結構いいけど、API経由のモデルしかサポートしてないんだよね。

不思議なことに、16 Plusではすごく速いんだけど、長いメッセージだとすごく遅くなることがある。熱制限のせいじゃないのにね。診断データが見れたらいいのに。

LLMの推論はO(tokens^2)だよ。

Gemma 4を使ってオフラインで動くポケットバイブコーダーを作ったんだ(モデルをダウンロードすればオフラインで動くよ)。iPhoneで使えるけど、4Bモデルも動かせるけどメモリの関係で2Bモデルがデフォルトになる。https://github.com/blixt/pucky 1つのTypeScriptファイルを書いて(複数ファイルは試したけど、埋め込まれたGemma 4は賢くないからね)、oxcでコードをコンパイルするよ。Xcodeで自分でビルドしないといけないから、これがApp Storeの審査を通ることはないと思う。起動すると、2つのスタートポイント(React NativeとThree.js)が含まれてるけど、UXはちょっとわかりづらい。左/右にスワイプしてビューを切り替えてね。

役に立つかもしれないよ - https://news.ycombinator.com/item?id=45129160 React NativeはSwiftに切り替えられると思う。

オフラインだろうがなんだろうが、Googleはあなたがそれとやり取りする時に、すべてのキー入力や電話の向き、写真、WiFiのエンドポイント、靴のサイズをアップロードしてると思うよ。あなたの体験を向上させるためにね。

...靴のサイズ ちなみに、Googleの内部トレーニングコンテンツの多くは、架空の製品「gShoe」を使っていて、その靴が集めるデータのプライバシーへの影響について議論してるんだよね :D

Appleはデバイス上で動くAI戦略のためにGoogleに10億ドル払ってるんだ。これがどうなるかのプレビューを見てる感じだね。

ソースコードが公開されたよ(今のところAndroid版だけだけど)ここで見られるよ: https://github.com/google-ai-edge/gallery 。ざっと見た感じ、アプリの使用状況(モデルのダウンロードや呼び出しなど)について、メッセージ内容なしで分析データを集めてるみたい。要するに、使われたモデルだけを記録してるってことだね。

推論がAppleのニューラルエンジンじゃなくてGPUを通ってるのに気づいたよ。Googleのエンジニアたちは、Appleの独自のテンソルブロック用のカスタムアテンションカーネルをコンパイルするのを諦めたんじゃないかな。Metalは予測可能でポートしやすいけど、専用のNPUよりもバッテリーをかなり早く消耗するんだ。ANEのバックエンドを改修するまで、これはただの派手な技術デモに過ぎないね。

多少の電力を消費するのは全然気にしないよ。バックグラウンドプロセスを動かすことでNPUの使用が促進されるかもしれないけど、今のところそれが急務ってわけでもないしね。24時間あなたの話を聞いてデータを分析するっていうのは、私たちのデバイスのコントロールが欠けてるから、あんまり探求したいユースケースじゃないな。

Googleのエンジニアたちは、Appleの独自のテンソルブロック用のカスタムアテンションカーネルをコンパイルするのを諦めたんじゃないかな。AndroidのAI Edge Galleryアプリ(Gemmaをスマホで試すための公式推奨方法)は、GPUを使ってる(NPUサポートがない)けど、ファーストパーティのPixelフォンでもそうなんだ。だから「Appleの独自のテンソルブロックとインターフェースを持ちたくなかった」ってより、単に全体的にどうでもよかったって感じだね。本当に驚くべき決定だよ。

Appleのニューラルエンジンって、LLMの実用的なターゲットになるのかな?厳密には不可能じゃないかもしれないけど、ANEは以前のLLMスタイルの機械学習を考慮して設計されてるんだよね。理論的にはCore MLを通じてANEでLLMを動かすことは可能だけど、モデルの変換やカスタムハードウェアの調整が必要だから、現実的にはかなりのハードルがあるよ。LLMのエコシステムはCPU/GPUの実行に標準化されてるし、今のところANEにリソースを割く気はなさそう。AppleのMLXフレームワークにもANEのサポートはないし、ANEが得意なモデルもあるけど、LLMはその中には入ってないみたい。

Gemma4はまだ電力を食うね。ほぼすべての重みをアクティブにする傾向があるから。qwen3-coder-nextは、同時に約30億のパラメータだけをアクティブにするから、ずっと少ないみたい。私の予想では、これもまだ技術デモに近い状態で、パフォーマンスはまだまだ引き出せる部分があると思うよ。