概要
Whisperなどの音声認識モデルは、 無音の音声ファイル に対して特定のフレーズを 誤認識(幻覚) する現象が報告されています。 特に large-v3モデル では、 アラビア語やドイツ語 で著作権表示などが出力されやすい傾向。 これは、 YouTube字幕データ などを学習に利用したためと考えられます。 いくつかの 回避策や代替モデル も議論されています。 本稿では、現象の詳細・原因・回避方法・代替案を解説します。
Whisperモデルによる無音ファイルの誤認識現象
- Whisper large-v3モデル で無音ファイルを解析すると、常に「 ترجمة نانسي قنقر」など同じフレーズが出力される現象
- ffmpeg で無音ファイル(例:30秒)を生成し、Whisperで解析した際の挙動
- アラビア語 や ドイツ語 では著作権表示や字幕制作者名など、特定のフレーズが頻出
- 英語 では「applause」や「This is the end of the video, remember to like and subscribe」などの幻覚出力が多発
- 音声がない場合 や 動画の終端部 でこの現象が顕著
原因の考察
- Whisperは YouTube音声+字幕データ で学習されており、動画終端の無音区間には 著作権表示や制作者クレジット が多く含まれていた
- そのため、 無音=著作権表示 として学習してしまった可能性
- 参考事例として ノルウェー語 でも同様の現象が観測されたとの研究報告(Medium記事)
回避策・対処法
- VAD(Voice Activity Detection) の活用
- 音声がある部分のみを認識対象とし、無音部分を除外
- 初期プロンプト の設定(例:「.」など)による出力誘導(v3では効果が薄い)
- suppress_tokens トリックの利用(smallモデルでは有効、v3では効果が限定的)
- logprob_threshold を調整(例:-0.4に設定、ただし一般用途には不向き)
- 前処理 で無音区間をカットするフィルタリング
代替モデル・新モデルの紹介
- Voxtral など新しいモデルの登場
- Voxtralはリリース直後で今後の評価に期待
- Whisper smallモデル では一部回避策が有効との報告
- アラビア語向け に特化したモデルやサービスの情報共有(例:arabicworksheet.com)
まとめ・今後の展望
- Whisper large-v3など大規模モデルは 無音区間の幻覚出力 が避けられない傾向
- VADや前処理 による無音除去が実用的な対策
- 新モデルや言語特化型モデル の活用も検討
- 音声認識出力の 後処理で特定フレーズをフィルタリング する運用も有効