おそらく、ベンチマークや簡単な使い方に焦点を当てた別のASRモデルだと思う。俺はTwitchのゲームプレイのVODを編集してYouTubeにアップしてるんだけど、アクセシビリティのためにwhisper-large-v3を使って字幕をつけてる(YouTubeの自動字幕はクソだけど、少しずつ良くなってきてる)。俺の使い方に合った良いASRモデルのチェックリストはこんな感じ:1. タイムスタンプのサポートがあること。2. 重なって話す人のサポート。3. 半端な単語や中断された文を合体させない正確なトランスクリプト。4. [咳]、[うめき]、[笑い]、[ため息]などの非言語的なものをサポート。5. 10,000語以上の非自明なサイズのコンテキスト注入ができること。1は明らかで、これがないと字幕が作れないから。強制アライメントは失敗することが多すぎる。2は現実のシナリオでは重要で、実際の世界では人々が常に重なって話すから。俺の場合は、ストリーマーがゲームプレイの音声の上に話すことが多いし、ゲストがいるときもそう。2人が話すと、トランスクリプトはどちらか一方を無視するか、最悪の場合は両方無視することがある。3と4はアクセシビリティの観点で、もし聴覚障害があるなら、話されている内容をより文字通りに表現したトランスクリプトの方が、スピーカーがどう話しているかをよりよく伝える。すべての字幕がちゃんと「スペルチェック」されているなら、モデルがベンチマークに過剰適合しているのは明らかだ。5は必須ではないけど、あった方がいいもの。俺の使い方では、ストリーマーがよくチャットを読んでいるから、最近話したユーザーのリストや、最近のチャットメッセージ、画面上のテキストなどをモデルに与えると、より正確なトランスクリプトが得られる。いろんなモデルを試してみたけど、俺のニーズを満たすのに最も近いのは強制アライメントの上にLLMスタイルのモデルだ。でも遅すぎるから、whisperにこだわってる。whisperxなら、1つのコマンドで5分でトランスクリプトが取れるからね。これらのモデル(whisperも含めて)がやることの1つは、完全な文を省略すること。これがモデルにとって最悪のことだよ。