世界を動かす技術を、日本語で。

Apple Intelligenceによる新しいアクセシビリティ機能

概要

Appleは2026年にApple Intelligenceを活用したアクセシビリティ機能の大幅アップデートを発表。 VoiceOverやMagnifierなどの主要機能に自然言語ナビゲーションや詳細説明を追加予定。 Apple Vision Proでは車椅子操作や顔ジェスチャー対応など新機能も搭載。 動画の自動字幕生成やゲームコントローラー対応拡大も含む。 新しいHikawa Grip & Stand for iPhoneも多彩なカラーバリエーションで発売開始。

Apple Intelligenceによるアクセシビリティ機能の進化

  • Apple Intelligence を活用した新しいアクセシビリティ機能の提供
    • VoiceOverMagnifierVoice ControlAccessibility Reader の強化
    • 自然言語によるナビゲーションや詳細な説明機能の追加
  • Apple Vision Pro の新機能
    • 視線操作 による車椅子コントロール機能
    • 顔ジェスチャー でのタップやシステム操作が可能
    • Dwell Control で目の動きによる要素選択
  • 動画への自動字幕生成
    • iPhoneやiPad、Mac、Apple TV、Apple Vision Proで利用可能
    • デバイス上で音声認識 し、プライバシーを保護
    • 字幕の表示スタイルは再生メニューや設定でカスタマイズ可能
  • Hikawa Grip & Stand for iPhone の新色発売
    • アクセシビリティを重視した MagSafe対応アクセサリ
    • Apple Storeオンラインで3色展開

追加アップデート

  • Vehicle Motion Cues がvisionOSに追加
    • Apple Vision Pro利用時の 乗り物酔い軽減 サポート
  • Touch Accommodations のパーソナライズ設定がiOSとiPadOSで可能
  • Made for iPhone補聴器 のペアリングとハンドオフがより信頼性向上
    • iOS、iPadOS、macOS、visionOSで設定体験が改善
  • tvOSでのLarger Text対応
    • 低視力者向けに 画面上の文字サイズ拡大 をサポート
  • Name Recognition 機能の多言語対応拡大
    • 50以上の言語で 名前を呼ばれた際の通知 が可能
  • FaceTimeでの手話通訳API提供
    • 開発者向けに 人間の通訳者をビデオ通話に追加 可能
  • Sony Accessコントローラー のサポート拡大
    • iOS、iPadOS、macOSで カスタマイズ可能なゲーム体験
    • サムスティックやボタン、外部スイッチの設定が可能
    • 2台のコントローラーを組み合わせて利用可能

言語・地域・注意事項

  • Apple Intelligence はベータ版で以下の言語に対応
    • 英語、デンマーク語、オランダ語、フランス語、ドイツ語、イタリア語、ノルウェー語、ポルトガル語、スペイン語、スウェーデン語、トルコ語、ベトナム語、中国語(簡体字・繁体字)、日本語、韓国語
  • 各機能・言語の提供状況やシステム要件は support.apple.com/en-us/121115 で確認可能
  • VoiceOverMagnifier は危険が伴う状況や医療用途では利用非推奨
  • Voice Control のApple Intelligence対応は英語(米国、カナダ、英国、オーストラリア)で提供
  • 自動字幕生成 は英語(米国、カナダ)で提供開始
  • Apple Vision Pro や一部機能は制御された環境での利用を推奨
  • Hikawa Grip & Stand for iPhone は主要国のApple Storeオンラインで購入可能

参考リンク

  • 詳細・最新情報は support.apple.com/en-us/121115 および support.apple.com/en-us/118507 を参照

Hackerたちの意見

請求書の合計金額は83.89ドルです。この金額を支払い前に、ユーティリティプロバイダーに確認するか、テキスト検出を使って確認してください。

  1. AIを使って請求書の金額を確認する
  2. 請求をしてきた人に電話して、いくら請求されたか聞く
  3. 請求された金額を支払う

情報を瞬時に得て、後で確認するのはまだ便利だよね。信頼できる誰かにその数字を読んでもらう方が、会社に電話するよりいいアイデアかもしれない。ただ、そういう選択肢がある人は少ないけどね。

同じ請求書を数ヶ月払ったら、だいたいの電話代が分かるようになるし、もう気にしなくていいよね。ああいう文言は入れなきゃいけないんだろうね。ChatGPTが「私たちが言うことをすべて確認してください」ってフッターに書いてるのと同じように。

これは本当に役立つLLMの応用に見えるね。もっと多くの企業が、私たちを置き換えることや、効率の名のもとに私たちを搾取することに焦点を当てるのではなく、人間を助ける方法に注力してほしいな。

それって彼らのサーバーに関係してるよね?彼らは自分の命をかけてiPhoneを信頼してるの?それともデータセンターを信じてるのかな?

同意するよ。この分野には多くの可能性があるみたいだね(私の外部からの視点では)。前の記事の問題(https://news.ycombinator.com/item?id=48178378)が、こういう便利な機能を危険にさらすほど一般的にならないことを本当に願ってる。短期的にはありそうにないけど、ユースケースが増えるにつれて、悪意のある行為者も増えるかもしれないね。

これが実際に助けを必要とする人たちの手に渡るまで、判断は保留すべきだと思う。私の経験は視力に問題がある高齢の両親に限られているけど、Appleが設定できる文字サイズでは、彼らのスマホは読めない状態。どのアプリでも文字が画面からはみ出しちゃうし、1stパーティーも3rdパーティーも関係ない。請求書の例では、ユーザーはプロバイダーに確認するように言われるけど、請求書の番号に電話をかける提案はなぜしないの? テキスト検出を使うように言う代わりに、代わりにやってあげればいいのに。Appleの技術なら、その能力はすでに持っているはずだし。これがせいぜいギミックで終わるんじゃないかと心配してる。追記:グリップが良さそうなのはいいね。アップル税がかからないことを願ってる。

正直に言うと、視覚障害者を助けることで企業が得られるお金と、ソフトウェア開発者や金融アナリストを置き換えることで得られるお金を比べてみて。Appleがこれらの技術を使って助けを必要とする人を助けるのは素晴らしいことだけど、ほとんどの企業がこの手のことを調べない理由を知らないふりはしないでおこう。正直に言えば、みんなこの手のことを「他の誰か」に任せる理由をよくわかってると思う。

「見たところ」自動アクセシビリティシステムが実用面でかなり不足してるのが多いみたい。こういうのは、実際に使ってる人の意見が必要だよね。

この発表のLLMベースの機能って、追いつくための機能じゃない?画面の内容を説明するのは、GeminiがPixelフォンでずっとやってきたことだし。マルチモーダルAIにとってはかなり明白なユースケースだよね。僕の唯一の希望は、これが広まって、オルトテキストを指摘する人たちが減ることだな。

これがAppleの得意なところだよね。新しい業界の進展を製品そのものじゃなくて、技術として扱ってる。AIは製品自体じゃなくて、顧客体験を向上させるための機能になるんだ。

面白い事実:この動画は、視覚のある人たちがアクセスできるように作られたんだ。盲目の人があの速度で音声を聞くことは絶対にないからね。正直、盲目の人がコンピュータを使っているのを見たら、彼らが信じられない速度で音声を聞いているのに感心するよ。

心配しないで、視覚のある私もAppleの遅い読み上げ速度にはイライラしてるよ、例えば「通知をお知らせ」する時とか。

正直、盲目の人がコンピュータを使っているのを見たことがあるなら、彼らが音声を信じられない速さで聞いているのに感心すると思うよ。さらに、自分でもオルカ(またはOSに付属しているスクリーンリーダーアプリ)を起動して、目を閉じたままコンピュータを使ってみると、彼らがどんな体験をしているのかがわかるよ。アプリケーションをナビゲートするのがほぼ耐えられないくらい速く音声合成器の話す速度を設定する理由もすぐに理解できるし、特にリストを扱うときはね。

https://youtu.be/wKISPePFrIs?si=ahGfFp0U7-pTU9w6&t=43 これの例としては、マイクロソフトの盲目のソフトウェアエンジニア、サキブ・シャイクのこのトークが一番好き。リンクはタイムスタンプ付き。

盲目の人は動画の速度を変えられないの? コントロールはそこにあるのに。

多分、これは広告だからだと思う。超速いロボット声はすごく厳しくてイライラすることがあるからね。盲目の人たちも時々それが刺激的すぎるって感じることがあるし、笑。

テレビ番組でテキスト説明トラックを聞いたことがあるけど、速いけどスクリーンリーダーほどじゃない。訓練されてない耳には、視覚障害者のスクリーンリーダーは、TI-99/4Aの音声合成器が無効なメモリから読み上げる時みたいに聞こえる。

声のスピードが耐えられないほど遅い視覚障害者をたくさん知ってるけど、技術が彼らにできることのほんの一部しか使ってない。自然言語でスマホに指示できるインターフェースがあれば、技術に詳しくない人たちにはすごく助けになると思う。でも、AppleのSiriの歴史を考えると、あまり期待はしてないけどね。

確かに、速いだけじゃなくて、かなりロボットっぽいことが多いよね(視覚障害のない人でも1.5倍速だと理解するのが難しい)。音を使ってエコーロケーションを学んだ視覚障害者の話を読んだことがあって、すごくクールなスーパーパワーだなって思った。いつかモニターを外して、本当にツールを使う方法を学んでみたいな。数年前に働いてた視覚障害者は、画面を常にオフにしてたおかげで、バッテリーの持ちがほぼ倍だったから、それだけでもいい機能だよね。エコーロケーションのレベルには達しないかもしれないけど、半分でもできたら最高だな。アクセシビリティの変更を実際にQAできるボーナスもついてくるし。

昔、コミュニティセンターでITをやってたんだけど、ディレクターが盲目だったんだ。彼のスクリーンリーダーがどれだけ速く読んでるかに驚いたよ。全然理解できなかったけど、彼のキーボードショートカットの使い方は、vimやemacsのエリートたちをも恥ずかしがらせるレベルだった。

アクセシビリティ機能は、技術を現実の問題や体験に焦点を当てる素晴らしい方法だよね。何かを作る時の罠は、群衆のために作ることだと思う。アートでもソフトウェアでも何でも...特定の個人を意識して作ると、結果が良くなるんだ。アクセシビリティ機能は、ほぼいつも特定の愛する人を念頭に置いて推進され、現場でテストされるから、技術的な解決策が人間味を持って地に足がつくんだと思う。

これを信じるのは難しいな。オンラインには、LLMが「ホットドッグを食べたんだけど、口の周りにマスタードついてる?」とか「いいえ、全部きれいだよ」って言ってる動画がたくさんあるけど、その人の顔には大きな黄色いシミがあるんだよね。

コーディングや画像・テキスト作成みたいに、自分でやるのが簡単すぎたり楽しい場合もあるよね。でも、それがみんなに当てはまるとは限らないからね。

問題は、画像を評価するのに言語モデルを使うことだね。「LLMが期待外れ」という不満の80%は、何らかの形の画像分析に関わってると思う。画像のトークン化は難しいんだよね。言語のトークン化は意味が濃いけど、画像のトークンは無意味だったり関係ないことが多いし、それでも処理されちゃう。最新のLLMに爪楊枝の写真を見せて、1本動かして正方形を作るように頼んだら、たぶん苦戦するだろう。でも、2年前の中くらいのLLMに同じ問題を言葉で出したら、ほぼ毎回うまくいくんだ。つまり、LLMが答えを出すのに画像に頼らないようにするのが大事だね。

「ビークルモーションキューがvisionOSに登場し、Apple Vision Proを使っている人が移動中の車の中で乗客としての乗り物酔いを軽減するのに役立ちます。Vision Proは、タップやシステムアクションを行うための顔のジェスチャーもサポートし、Dwell Controlを使って目で要素を選択する新しい方法も提供します。」車の中では着けない方がいいんじゃない?

ウーバーの後ろでヘッドセットをつけるのはそんなにクレイジーじゃないと思う。僕はiPhoneのモーションキューを使ってるけど、酔ったりはしないしね。 https://www.youtube.com/shorts/OxbjggMcKrk

電車は重要だよね。

「車の中ではただつけない方がいいんじゃない?」 なんで?

乗客としてノートパソコンで何か作業する時に、目の前にちゃんとした画面があるのはすごく便利だよ。膝の上を見つめる必要がなくなるし、運転手の視界からの動きも画面に影響しないからね。でも、バスがターミナルの後ろから出てくるのはちょっと変な感じ。

飛行機?電車?このモーションドットを使ったことがないなら、マジで効果あるよ。うちの妻は乗り物酔いしやすくて、車の中で方向を入力するために携帯を見ることすらできなかったけど、モーションドットのおかげで全然大丈夫になった。

電車、飛行機。TFAは「車」じゃなくて「乗り物」って言ってたよ。

その部分も読んで、車の中でVision Proを使ってる乗客がどれくらいいるのか気になった。数十人いるんじゃない?それともSVでは普通のことなの?

Appleが本当に改善すべきことの一つは、音声からテキストへの転写だよね。アクセシビリティに関しては色々と進んでるのに、音声の転写に関しては10年遅れてる感じがする。少なくとも5年は遅れてるよ。iPhoneの入力は最近ひどいし、パームリジェクションも前より悪くなってるから、誤入力が増えてる。タイピングのテキスト修正アルゴリズムも前より悪化してて、気づかないうちに間違った修正をされることが多いんだよね。しかも、音声認識も改善されてないし。もう指が疲れちゃったよ、Apple、iPhoneを使うのが苦痛じゃなくしてほしい。

Wispr Flowは音声認識のマスタークラスだね。Appleのソリューションは、比較するとまるで前世紀のものみたい。ElevenLabsやOpenAIがそれを軽く超えてるから、AppleのTTSも同じだよ。私が求めてるのは、iPhoneがそれらをネイティブで同じ品質でできることなんだ(だって、Appleの囲いの中ではそれがどこでも使える唯一の方法だから)。

Appleの音声認識はイライラするから、Aqua Voiceを使ってるよ。

しばらく前に「Be My Eyes」に視覚のある人として登録したんだけど、思ったほどコールは来なかった。でも、できた数少ないコールで手助けできて嬉しかったよ。1回は届いた郵便物の封筒を読む依頼、もう1回は薬の瓶を読む依頼、そして大きなソファに座ってシリアルの箱を持ってた2人の面白い人たちが、何が何だか知りたがってたのを覚えてる。一人は特定の種類が本当に嫌いだったな。アプリには、視覚障害者のカメラを視覚のある人がオンにできるユニークな機能があったよ。 https://www.bemyeyes.com

私は盲目じゃないけど、時々目の前にあるものの位置がわからなくなることがあるんだ。散らかったテーブルを指さして、鍵がどこにあるか見つけられたらいいな。もしこれがVision/Core MLの機能として提供されるなら、これらの機能が実装されたらすぐに散らかったテーブルアプリを作りたい。たぶんもう可能だと思うけど、これをリリースしてくれたらもっと簡単になるよね。

AppleがYouTube版のCMからスクリーンリーダーのアナウンス(「Appleロゴ」)を削除したのは残念だね。 https://www.youtube.com/watch?v=B3SmsSCvoss あれがあったからこそ、広告が際立ってたと思う。