世界を動かす技術を、日本語で。

AIがアクセントを聞き取る方法:アクセントクラスターの可聴的可視化

概要

  • 世界中の英語アクセントの多様性を3D可視化で探求
  • BoldVoice独自の大規模データセットとHuBERTモデル活用
  • アクセントのクラスタリング傾向と地理・歴史的要因の発見
  • プライバシー保護のための音声標準化技術
  • 学習モデルの洞察から発音指導ツールの進化へ

世界の英語アクセント可視化ツアー

  • BoldVoiceは、 200以上の言語話者 が利用する アメリカ英語発音トレーニングアプリ
  • ユーザーが 明瞭かつ自信を持って英語を話せる ことがミッション
  • アクセント強度メトリクス開発の過程で、 モデルがどのようにアクセント・方言・母語・言語ファミリーをクラスタリングするか を調査
  • 今回は 3D潜在空間可視化 を用いた分析結果を共有

技術的アプローチ

  • HuBERT(音声基盤モデル)をアクセント識別タスク用にファインチューニング
    • データセット:BoldVoice独自の 英語非ネイティブ音声+自己申告アクセント
    • 25,000時間・3,000万件 の音声記録を使用
    • 全レイヤーをアンフリーズ しA100 GPUクラスタで1週間学習
  • モデル構成
    • 入力:生波形(16kHz)
    • 特徴抽出→特徴射影→トランスフォーマーエンコーダー→分類ヘッド
    • パラメータ数:94.6M(全て学習可能)
    • ダウンサンプリング:320倍
    • トランスフォーマー:12層、ヘッド数12、次元768
  • テキストプロンプトやトランスクリプトは未使用
  • アクセント識別性能は高い が、今回は 潜在空間でのクラスタリング に注目

可視化手法

  • UMAPによる次元削減 で768次元→3次元へ
  • 各点は1つの音声記録を表現し、色は真のアクセントラベル
  • 予測とターゲットが一致した点のみを抽出しノイズ除去
  • 可視化の目的はモデルの性能評価ではなく、アクセント間の相対的位置関係の理解

プライバシー保護の革新

  • 点をクリックすると標準化音声を再生
    • 話者匿名化アクセント差分のみ抽出 が目的
    • 性別・録音品質・背景ノイズ等の影響を排除
    • アクセント保持型音声変換モデル を社内開発
    • 一部音響的アーティファクトが生じる場合あり

探索・考察ポイント

  • 可視化空間を自由に操作・拡大・フィルタリング可能
  • 地理的近接・移民・植民地史が言語系統よりもクラスタリングに影響
    • AustralianとVietnameseのクラスタが隣接
      • オーストラリア訛りの英語を話すベトナム系話者 が橋渡し
    • French/Nigerian/Ghanaianのグループ化
  • マップ上の距離は客観的な音韻類似度ではなく、モデルが音声のみで学習した結果の副産物
  • インド亜大陸クラスタ
    • Telugu, Tamil, Malayalam が南端、 Nepali, Bengali が北西端に分布
    • 地理分布を大まかに反映
  • MongolianとKoreanクラスタの近接
    • 音韻的類似性の指摘言語系統仮説(Altaic) の歴史的背景
    • モデルは言語知識なしで音響的特徴を捉える

結論と今後

  • 大規模音声モデルが世界の英語発音の共有された音韻空間を捉える
  • 潜在空間でのアクセント配置を分析することで、より効果的な発音指導ツール設計が可能
  • BoldVoiceのミッション:全ての英語学習者が「伝わる・自信を持てる」発音支援
  • 音声MLエンジニア・言語学者・一般読者からの意見や提案歓迎
  • 社内ダイアレクトコーチRon Carlosの専門的協力に感謝

Hackerたちの意見

ペルシャ語とロシア語が近いって、意外だよね。ポルトガルのポルトガル語とロシア語が似てるって混乱する人は多いけど、ペルシャ語は初めて知った。

ポルトガルに行ったとき、ポルトガル語がロシア訛りのスペイン語に聞こえることに驚いた!

ポルトガル語とロシア語の音の類似性に気づいてるのは俺だけかと思ってた。

アイデア: ペルシャ語とロシア語は母音の音がシンプルで二重母音がないから、英語を話すときに難しくて明らかになるよね。英語は二重母音やいろんな母音が多いから。

そうだね、同じ「主要な」クラスターにいるみたい。ただ、セルビア語/クロアチア語、ルーマニア語、ブルガリア語、トルコ語、ポーランド語、チェコ語も近いよ。トルコ語とペルシャ語が一番近い隣人みたい。

モノトーンから表現豊かな電子書籍に変えたら、俺の「アメリカ英語」スコアが52%から92%に上がったよ。オーディオブックのトレーニングはちょっと控えた方がいいかも。

モノトーンって何?表現豊かな電子書籍って?アメリカ生まれじゃないってこと?リズムが理解において正確な音よりも重要だと思ってたんだけど。

最近、Pythonとpdfplumberを使って1100のPDFファイルを読み込むプロジェクトを始めたんだ。ほとんどが俺のハンブルバンドルコレクション。テキストを抽出して、PostgreSQLの「documents」テーブルに入れた。それから、文のトランスフォーマーを使って1Kのチャンクを384Dのベクトルに圧縮して、DBに書き戻した。これを平均して、ドキュメントレベルの埋め込みを単一のベクトルとして作成した。UMAPとHDBSCANをこのデータセットに適用したら、俺の本の2Dプロットができた。後で、発見したトピックをDBに戻して、クラスタのtf-idfを計算して、上位5つの用語を粗いクラスタラベルとして選んだ。これらのステップを終えるのに約20〜30時間かかったけど、結果にはすごく感動した。料理本がプログラミングや数学の本と明確に分かれて見えたし、ベーキング、BBQ、サラダなどのサブクラスターも見れた。今は、基本のPostgreSQLと自分が作業中のPythonコンテナを使って、2つのコンテナのDocker Composeファイルに入れようとしてる。

オーストラリアとベトナムの関係は、オーストラリアが地理的に最も近い地域で、ベトナムの英語学習者にネイティブの英語教師を供給できるからだよね。ベトナム語とオーストラリア英語の音声的な類似性とは関係ないと思う。

自分のアクセントは普通に聞こえるから、誰かがアクセントダブラーを作ってくれたらいいな。二つのアクセントの違いを拡大して、オーストラリア人がアメリカ人にどう聞こえるか、逆も然りで聞けるように。

このモデルが正しいと仮定すると、アメリカ人には南アフリカ人みたいに聞こえるんだね!

自分の録音を聞いてると、アクセントがすごく目立つんだよね。生で自分の声を聞いてるときには全然気づかないのに。これ、英語でも母国語のドイツ語でも同じことが起こる。

理論的には面白いけど、実際には混乱してる。異なる録音を再生してみると、ニュートラルな声に「再適用」されたアクセントがあるって聞いたけど、母音の実際の違いを聞き取るのがすごく難しい。例えば「フランス語」をクリックすると、なんとなく違う感じはするけど、かなり...おかしい。今まで聞いたどのネイティブフランス語話者とも全然違うし。結局、アクセントの大部分はプロソディにあるから、彼らが「アクセント」として考えている音声的特徴は何なのか分からない。三つの次元が何を表しているのかも気になる。明確な答えはないだろうけど、サンプルを全部聞いたなら、各次元がどんな対照的な特徴を持っているのか説明できるはずじゃない?

私は耳が聞こえない。カナダ英語の標準に近いのが母国語だと思ってる。ほとんどのネイティブ英語話者は私の話し方は特に特徴がないって言うけど、彼らは礼儀正しく言ってるだけだと思う。少し変わった感じがあって、耳の良い人ならそれが聴覚障害によるものだとすぐ分かる。アクセントゲッサーを使うと、スウェーデンのアクセントがあるって出る。デンマークとオーストラリア英語もほぼ同じくらいの順位。AIだけじゃなくて、英語の非ネイティブスピーカーも私の話し方を外国のアクセントだと思うことが多い。英語かオーストラリアだと推測されることが多い。まるでそこで生まれて、若い頃にここに引っ越してきたみたいに思われる。スカンジナビア人かどうかも聞かれたことがある。面白いことに、ネイティブスピーカーはこの間違いをしないことに気づいた。彼らは私に言語障害があることを認識することもあるけど、私の話し方にはネイティブアクセントとして自信を持って認識される何かがある。それが、非ネイティブスピーカーがアクセントや能力を判断するために使うものと、ネイティブスピーカーが使うものは違うという(おそらく明白な)推論につながる。私の場合、フレーズの長さやトーンの輪郭が関係してるんじゃないかな。(それはなんとなく聞こえるし、再現できると思うけど、子音には苦労してる。)AIも私の話を文字起こしするのが本当に苦手。90年代の初期の音声認識ソフトウェアでもそれに気づいた。全然使えなかった。今でも、AIの文字起こしはほとんどの人よりも私に対してずっと苦労してる。でも、たまに口ごもる癖がある以外は、私は結構はっきり話してるって人には言われる。聞こえているものが違うって感じ。

地元かどうかを判断するには、フレーズや単語の使い方も考慮するべきだと思う。アクセントだけじゃなくてね。もしかしたら、それがあなたにとってうまくいってる理由かも?

AIも私の話を文字起こしするのが本当に苦手。90年代の初期の音声認識ソフトウェアでもそれに気づいた。全然使えなかった。あなたの文字起こしの利用ケースが何かは分からないけど、Whisperを微調整することで改善できるかもしれないよ。これには約4ドルのトレーニングコストがかかるし、5〜10時間のラベル付き(文字起こしされた)音声データセットが必要になるけど、それが一番のハードルかも。1. 2000ステップは、CollabのA100で6時間かかった。12時間のデータでopenai/whisper-large-v3を微調整したよ。もしよければ、ノートブックやスクリプトを共有できるよ。2. 現在、初期の自動文字起こしを人間が簡単に編集できるPWAを作成中だけど、まだ準備ができていない。

私も耳が聞こえないけど、14年間のスピーチセラピーを受けた。アラバマで育ったんだ。南部出身だって分かるのは、ピン・ペンの合併[1]があるからだけ。そうじゃなきゃ、スピーチセラピーの影響でアメリカ中西部で育ったと思われる。ほとんど誰もそれに気づかないよ、ピン・ペンの合併について知ってる言語学者以外はね。 [1]https://www.acelinguist.com/2020/01/the-pin-pen-merger.html

聴覚障害があって、中西部出身;アクセント推測器ではスウェーデン人って言われた。

わあ、私は耳が聞こえないわけじゃないけど、あなたが言ったことのほとんどが私にも当てはまる。こんな経験をした人に会ったことがないのに、あなたの後のポイントは全部私にぴったり当てはまるよ: > 標準的なカナダ英語が私の母国語 > ほとんどのネイティブ英語話者は私の話し方を特に気にしないって言う > 非ネイティブの英語話者も私に外国のアクセントがあると思うことが多い。大体、英語かオーストラリアのアクセントだって。まるで私がそこに生まれて、若い頃にここに引っ越してきたみたいに思われる。 > 時々、私にスピーチ障害があるって認識されるけど、私の話し方には自信を持ってネイティブアクセントだと認識される何かがある。年に2、3回は誰かに「イギリス人?」って聞かれるけど、私と両親はカナダ生まれで、イギリスには行ったこともないから、なんでそんなにイギリスのアクセントがあると思われるのか分からない。面白いことに、アクセントチェッカーは私のアクセントをアメリカ英語89%、オーストラリア英語3%、フランス語3%って推測してて、かなり正確だね。

オーストラリア英語のいくつかのバリエーションはカナダ英語にとても似てる。誰かがカナダ出身かどうかをすぐに判断できないこともある。たぶん、オーストラリアのいくつかの州では、植民地から受け継がれたクイーンズイングリッシュを使っているからだと思う。

オラクルを試したら、こんなのが出た:> あなたのアクセントはオランダ語だよ、友達。発音の微妙な違いからあなたのアクセントを特定したんだ。ネイティブの英語話者のように話したい?私はイギリス人で、ヨークシャー出身だよ。間違っていることを伝えるときに「イギリス - イギリス」としか選択肢がないのが面白い。イギリスのアクセントの幅広さを知っている人には、ちょっとおかしいよね。「英語を話すときにアクセントがある?」って質問も変だと思う。どんな言語を話すときも、みんなアクセントがあるよ。

「英語を話すときにアクセントがありますか?」って質問、変だと思う。どんな言語でも、話すときはみんなアクセントがあるよね。確かにそうなんだけど、英語圏に住んでる外国人の視点から見ると、たぶんそれがターゲット層なんだろうね。私たちは口を開けた瞬間、地元の人たちに「外国人」としてカテゴライズされるのが分かる。どんなに他の部分で優れていても、私たちは「彼ら」の一員にはなれない。私たちに対する偏見がどれくらいあるかはあまり関係なくて、地元の人たちが私たちが「彼ら」ではないことを知っているという事実が常にあることが重要なんだ。それによって無視されるのが怖い。そんなふうに目立つのは誰だって嫌だよね、特にそれが不利に働くときは。こういう不安感が、この商品が狙っているところなんだと思う。

かなり失礼だよね。英語が母国語で、IELTSのスコアも完璧だし、親の一人は英語の教授だった。でも、私のアクセントが「ネイティブ」じゃないって感じさせるんだ。

この音声標準化モデルは、社内のアクセントを保持する音声変換モデルだよ。本当にうまく機能するかは分からない。フランス語やスペイン語のネイティブスピーカーとして、英語を話すフランス人やスペイン人をすぐに認識できるけど、ここにある例は全く異質だ。もし「フランス語」のアクセントがどこから来たのかを推測しなければならないなら、ナイジェリアのようなものだと思う。例えば、スペイン語は英語の「r」を発音する際に非常に独特な方法があって、ここにはそれが全然ない。各言語に約10の例がある中で、フランス語やスペイン語を正しく推測することはできなかった(フランス語は多分1つくらい)。

確かに音声標準化モデルは完璧じゃないけど、特に音声プライバシーのためにやることが重要だった。まだまだ初期の技術だね。

たぶん、特定の言語のさまざまな方言をまとめて扱ってるからだと思う。スペイン語は話せないけど、アルゼンチンではRの発音が違うってことは知ってるよ。

アクセントや発音改善、音素認識、kaldiエコシステムなどについて調べたけど、ここ数年で公に出ているものは何も変わってない。正確なオープンソースのデータセットすらないし、10,000時間以上の自己主張のある手動ラベルデータセットは部分的に自動化されてる。次の問題は、モデルが異なる潜在空間で動作していて、しばしば50msのチャンクで、発音評価にはもっと正確さが求められること。大声で「B」を言ってみて。静かな部分が唇にエネルギーを集めて、大きな部分があって、その後に共鳴するものがある。最悪なのは、昨年の学生や若手博士が成功や偽の改善を主張している論文が多すぎること。この記事自体は3D空間でのベクトル投影に過ぎない…実際の現実はもっと複雑なんだ。発音評価モデルについてのコメント、大歓迎だよ。

その通りだね。君が言ってる問題を解決するためのインセンティブはないと思う。今は、多くの人が作っている基盤が微妙なアクセントの違いを消す方向に向かってるからね。神経コーデックや、Whisperみたいな転写システムは、入力のクリーンで圧縮された表現を出力したがってるんだ。