世界を動かす技術を、日本語で。

Apple Intelligence Foundation Language Models 技術報告 2025

概要

AppleはApple Intelligence向けに、デバイス上とサーバー上で動作する2種類の多言語・マルチモーダル基盤言語モデルを発表。 3BパラメータのオンデバイスモデルはApple silicon向けに最適化。 サーバーモデルはPT-MoEトランスフォーマーを採用し、高品質と効率を両立。 両モデルとも大規模な多言語・マルチモーダルデータで学習し、責任あるAI運用を重視。 Swift中心の新フレームワークで、開発者は少ないコードで機能統合が可能。

Apple Intelligenceを支える基盤言語モデルの概要

  • Apple Intelligence のために設計された2種類の 多言語・マルチモーダル基盤言語モデル
  • (1) 約30億パラメータ のオンデバイスモデル
    • Apple silicon 向けに最適化
    • KV-cache共有2ビット量子化対応学習 などのアーキテクチャ的工夫
  • (2) サーバーモデル
    • Parallel-Track Mixture-of-Experts (PT-MoE) トランスフォーマー を採用
    • トラック並列処理疎なMixture-of-Experts計算グローバル・ローカル注意の交互適用
    • Apple Private Cloud Compute プラットフォームでの高品質・低コスト実現

学習データとファインチューニング

  • 責任あるWebクローリングライセンス済みコーパス高品質な合成データ からなる 大規模多言語・マルチモーダルデータセット で学習
  • 教師ありファインチューニング強化学習 を新しい 非同期プラットフォーム で実施
  • 追加言語対応画像理解ツール呼び出し実行 もサポート

性能評価と開発者向け機能

  • 公開ベンチマーク人手評価 で、同規模のオープンベースラインを上回る性能
  • Swift中心のFoundation Modelsフレームワーク を新たに提供
    • ガイド付き生成制約付きツール呼び出しLoRAアダプターファインチューニング に対応
    • 少ないコード行数 での機能統合を実現

プライバシー・責任あるAI運用

  • コンテンツフィルタリングロケール別評価 など、責任あるAI運用のための 多層的セーフガード
  • Private Cloud Compute による ユーザープライバシー保護
  • Appleの Responsible AI アプローチに基づく運用方針

Apple Intelligenceのユーザー体験と今後

  • iOS 18iPadOS 18macOS Sequoia に深く統合
  • テキスト作成・修正通知の要約・優先付け会話用画像生成アプリ内アクションの自動化 など、日常的なタスクに最適化
  • ユーザーの現在の活動 に合わせて柔軟に適応する設計
  • 2024年WWDC での発表と今後のアップデートへの期待

Hackerたちの意見

アップルの論文を見るたびに、「なんで俺のiPhoneはまだこれをやってないの?」って思っちゃう。シリが使えるようになってないのに、開発者にこれを渡す意味あるの?動かないのかな?開発者が何か作り始めたらわかるのかな。

なんで俺のiPhoneはまだこれをやってないの?多分、アップルはモデルをローカルで動かせるように調整してるんじゃないかな。ほとんど、いや、全てのシリはデバイス上で動いてるからね。音声処理のために往復することは全くないよ。それに、大きなモデルの場合、リクエストごとに使い捨てのVMが必要になるから、そのインフラを作るのに時間がかかるんだ。

なんで俺のiPhoneはまだこれをやってないの?具体的に何を指してるの?モデルはiPhone上で動いてるし、今もそれを活用した機能があるよ。

Appleシリコンのユニファイドメモリは、ollamaみたいなものを動かすのにすごくいいよ。彼らのアプリが出るのを待つ必要もないしね。

我々は、多様で高品質なデータを使ってモデルを訓練することを信じています。これには、出版社からライセンスを取得したデータや、公開されているデータセットからキュレーションしたデータ、そしてウェブクローラーであるApplebotがクロールした公開情報が含まれます。 > 我々は、基盤モデルの訓練においてユーザーのプライベートな個人データやユーザーのインタラクションを使用しません。また、特定の個人識別情報を除外するためのフィルターを適用し、不適切な表現や危険な素材を除外するための措置を講じています。 > さらに、我々は倫理的なウェブクロールのベストプラクティスに従い、ウェブパブリッシャーがAppleの生成基盤モデルの訓練に自分のコンテンツを使用されないように選択できるよう、広く採用されているrobots.txtプロトコルに従っています。ウェブパブリッシャーは、Applebotがどのページを見られるか、そしてそれがどのように使用されるかを細かく制御でき、なおかつSiriやSpotlightの検索結果に表示されることができます。リスペクト。

アップルが避けられないようにOpenAIやAnthropicと提携することになったら、彼らの定義では「倫理的なクロール」をしていないわけだけど、これをどう受け止めればいいんだろう。

Appleのアプローチの問題の一つは、活動の詳細を公開するずっと前からウェブをスクレイピングしてトレーニングデータを集めてたことだね。そして、robots.txtを使って除外する方法を教えたのも遅かった。

「私たちのウェブクロール戦略を使って、対応するaltテキスト付きの画像ペアを集めました。」反AIの人たちにとっての問題は、彼らが「すべての画像にaltテキストを書くように主張している」人たちでもあるってこと。だけど、今のところこれがaltテキストの主な使い道だから、実質的に無償で注釈作業をしてるってことだね。

Appleの本当のユーザープライバシーに対する姿勢を隠すために、フィグリーフを磨かなきゃね。arstechnica.com/tech-policy/2023/12/apple-admits-to-secretly-giving-governments-push-notification-data/ > Appleは、米国連邦政府が「情報の共有を禁止した」とアーズに提供した声明で確認した。

言葉やPRじゃなくて、行動を尊重しよう。

尊重はするけど、他の会社と比べるとひどいことになるだろうね。自分をここまで縛ることはできないよ。

ビッグテックのPR声明を信じちゃダメだよ。彼らはAIに関しては数十年遅れてる。私は長いことAI研究を追ってきたけど、過去15年でMicrosoft、Google、Facebookが発表した最高の論文は見つかるけど、Appleのは全然ない。理由は分からないけど、彼らはAIに全く興味がなかったんだと思う。これは彼らのAIの現状を正当化するためのPRだと言えるね。

この3Bモデルを俺の4GBのGPUカードで使えるようになったらいいな!かなり優秀そうだし、重さも手頃だよね。いつかHugging Faceで使えるようになるといいな。

AFAICT、これは責任を持って調達されたモデルとして初めて商業的に売り出されるものだね。好きだけど、この問題に関する騒ぎは収まってきた気がする。これは法的なカバーのため?それともアップルのプライバシーをアピールするマーケティング?

株主がApple Intelligenceについて訴訟を起こしてるみたい。完全に法的なカバーだね。

小さいデータセットに問題がある人っているの?商業的じゃないってことかな。

いい感じだね。ただ、iPhoneとMacの音声入力の背後にあるモデルを改善して、もっと正確に、かつリアルタイムで複数言語のトランスクリプションができるようになってほしいな。

今日Siriに聞いたことをそのまま言うと、「75度ファーレンハイトはセルシウスで何度?85度はファーレンハイトで?」って聞いたら、ファーレンハイトについてのウェブ検索を提案されたんだ。 「and」があるせいで、基本的な単位変換すらできなくなっちゃった。Appleが研究して話題にしてるのはいいけど、私たちは千ドルもするデバイスで役立つ何かを待ってるんだよね。これが世界で最も価値のある企業の一つから期待してたことだよ。

75度ファーレンハイトはセルシウスで何度?85度はファーレンハイトで? たぶん違いはなかったと思うけど、その文の後半はちょっと分かりづらいね。85度って何のこと?この二つの計算をつなげると、結果を表示する時に問題が出てくると思う。

75度ファーレンハイトはセルシウスで何度?85度はファーレンハイトで? え、何それ?英語を母国語とする私にとっても、かなり混乱する質問だよ!

今日のSiriの使い方(多分古いiOSのバージョンで)は、正直言って私たちが話してる記事とは関係ないよ。言うのは悪いけど、時間がかかると思う。大きなデータセンターで動いてるChatGPTと、電話デバイスで動いてるモデルを比べるのは…数年待ってみて。

一度に1つの質問のために作られたシステムで2つの質問をしたね。これを分ければSiriもちゃんと答えるよ。持ち方が間違ってるんじゃない?

さっきこれを自分の電話で試してみたけど、すぐに2つのポップアップが出てきたよ。

Siriはほんとに冗談みたい!息子(今11歳で、チャットGPTやジェミニなどのAIツールにかなり詳しい)と毎月リトライしてるんだけど、今回も笑っちゃった。基本的な質問にも対応できないし、質問を間違えて聞き取るし、始まったり止まったり、ランダムなウェブページに飛ばされたり…。「彼女はほんとにダメだ!」って言ってた。Appleはこれを早急に解決しないと!

「Appleは悪だ」とか「Appleは遅れてる」って言われてるけど(悪いことはしないからね)。でも、ファウンデーションモデルで作ったものは素晴らしいよ。Swift言語内で構造化データモデル(構造体)を指定できるシステムを構築して、現代のプログラミング言語の他のモデルと同じように使えるのはすごい。多くの他のAIでは、丁寧に作ったリクエストの後に整形されたJSONが返ってくるけど、確実性がないからいろんな安全策を実装する必要があるんだ。もちろん、まだ始まったばかりだし、他のツールも似たようなことをするかもしれない。でも、iOS開発者としてはAIの使い方がすごく簡単になる。特に、外部AIとのブリッジがあって、型安全な構造化Swiftモデルに戻せるのがいいね。私はあまり批判的になりたくないけど、どんな進歩も、たとえ遅くても最初は期待外れでも、他のところで改善につながるかもしれないから。

他のプロバイダーでは、ガイド付き生成を「構造化出力」って呼んでるの?部分的に生成されたコンテンツのストリーミングはすごくいいね。他では見たことないよ。

え?文法ベースのサンプリングは何年も前から普通だよ。基本的な機能で、遵守が保証されてる。何かを「慎重に作り上げる」なんてことはないし、セーフガードも含めてね。

Appleは遅れてるよ。みんな忘れがちだけど、Googleは2019年にモバイル規模のトランスフォーマーベースのLLMを出してたんだよね。https://github.com/google-research/bert AppleがAIネイティブな製品を用意する頃には、もう人々はそれを非人間化やファシズムと結びつけてるだろうね。

彼らの実装は裏でどう動いてると思う?ほぼ確実に「構造化出力」のバリエーションだと思うよ。これは多くの推論プロバイダーやLLMライブラリが長い間サポートしてきたものだから。

Appleはモデルを動かす余裕がないんだよね。iPhoneが多すぎて、データセンターが足りない。デバイス上で動かすのもリスクがあるし、サイクルの制限で頭が悪く見えちゃうかも。

Appleは慎重で、自分たちの手の内を見せないのは分かってるけど、彼らがこんなに研究を発表してるのは、実際には電話に統合したり、ユーザーにとって魅力的なAI機能を提供してないからなんじゃないかって思っちゃう。これが「うちもAIに強いよ」って言う唯一の方法なんだろうね。