AIがアクセントを聞き取る方法：アクセントクラスターの可聴的可視化

概要

HuBERT（音声基盤モデル）をアクセント識別タスク用にファインチューニング
- データセット：BoldVoice独自の 英語非ネイティブ音声＋自己申告アクセント
- 25,000時間・3,000万件 の音声記録を使用
- 全レイヤーをアンフリーズ しA100 GPUクラスタで1週間学習
モデル構成
- 入力：生波形（16kHz）
- 特徴抽出→特徴射影→トランスフォーマーエンコーダー→分類ヘッド
- パラメータ数：94.6M（全て学習可能）
- ダウンサンプリング：320倍
- トランスフォーマー：12層、ヘッド数12、次元768
テキストプロンプトやトランスクリプトは未使用
アクセント識別性能は高い が、今回は 潜在空間でのクラスタリング に注目

点をクリックすると標準化音声を再生
- 話者匿名化 と アクセント差分のみ抽出 が目的
- 性別・録音品質・背景ノイズ等の影響を排除
- アクセント保持型音声変換モデル を社内開発
- 一部音響的アーティファクトが生じる場合あり

可視化空間を自由に操作・拡大・フィルタリング可能
地理的近接・移民・植民地史が言語系統よりもクラスタリングに影響
- AustralianとVietnameseのクラスタが隣接
  - オーストラリア訛りの英語を話すベトナム系話者 が橋渡し
- French/Nigerian/Ghanaianのグループ化
マップ上の距離は客観的な音韻類似度ではなく、モデルが音声のみで学習した結果の副産物
インド亜大陸クラスタ
- Telugu, Tamil, Malayalam が南端、 Nepali, Bengali が北西端に分布
- 地理分布を大まかに反映
MongolianとKoreanクラスタの近接
- 音韻的類似性の指摘 と 言語系統仮説（Altaic） の歴史的背景
- モデルは言語知識なしで音響的特徴を捉える