FFmpeg 8.0がWhisperサポートを追加

2025年8月13日原文(code.ffmpeg.org)

概要

Anubis は、AI企業による ウェブスクレイピング 対策として導入された Proof-of-Work ベースの仕組み。個人利用にはほぼ影響せず、 大量アクセス のみを抑制。 JavaScript の最新機能が必要で、一部プラグインとの競合に注意。本対策は 一時的な措置 で、今後は 指紋認証 技術の導入を予定。 Anubis v1.21.3 が現在稼働中。

Anubisによるアクセス制限の理由

AI企業 による 過剰なウェブスクレイピング の防止策
サイトの 過負荷 や ダウンタイム の発生抑制
一般ユーザーへの リソース確保 優先
Proof-of-Work （Hashcashに類似）による 計算負荷 の付与
個人レベルでは 影響が小さく、大量アクセス時のみ コスト増加

Proof-of-Work方式の仕組み

Hashcash を参考にした 証明作業 の導入
各アクセスごとに 計算処理 を要求
大量アクセス の場合、計算負荷が蓄積
スクレイパー の運用コスト上昇を狙いとする
一般ユーザーは 通常利用 可能

今後の対策方針

現状は 仮の対策 としてProof-of-Workを使用
将来的には ブラウザ指紋認証 （例：フォントレンダリングの違い検出）へ移行予定
正規ユーザー への負担軽減を目指す
証明作業ページ の表示頻度削減

JavaScriptプラグインとの注意点

Anubis は 最新JavaScript機能 を利用
JShelter などの JavaScript制限プラグイン が有効だと正常動作不可
対象ドメインでは 該当プラグインの無効化 が推奨

バージョン情報

現在稼働中の Anubisバージョン ： v1.21.3

Hackerたちの意見

WhisperはOpenAIが最初に作った音声認識AIモデルだって理解してるんだけど、合ってるかな？

└

うん、パッチのコメントによると、合ってるよ。

└

そうだね。

└

はい。ドキュメントによると、> OpenAIのWhisperモデルを使って自動音声認識を行うんだって。

└

そうそう、C++の実装もあって、それを使って動かせるよ。

└

確かそうだったと思う。PotPlayerも自動字幕生成に対応してるはず。

└

まあ、音声転写モデルのファミリーみたいなもんだね。

これって、情報が増えたときに過去の言葉を編集する機能があるの？例えば、「I scream」って言うと、「Ice cream」と同じ音に聞こえるよね。でも、「I scream is the best dessert」って書くより、「Ice cream is the best dessert」の方がずっと意味が通るよね。これをやらないと、低遅延で高精度を両立するのは難しいと思うんだけど。Androidの音声認識みたいに、話してる間に推測が調整されるのが理想だよね。

└

Whisperは30秒ごとのチャンクで動作するんだ。だから、そういうこともできるし、 hallucination（幻覚）を起こしやすい理由でもあるね。

└

I Scream in the Sun https://carmageddon.fandom.com/wiki/I_Scream_in_the_Sun

└

これが脳が言語を処理するときにすることなんだ。あまり得意じゃない言語だと、音質が悪くなると理解する能力がすぐに落ちるのを感じる。でも母国語だと、音質がひどくても、脳がその言葉がどうあるべきかを文脈に基づいて予測して、意味を補完してくれるんだ。

└

もし興味があれば、ここで16.3以降を見てみるといいよ： https://web.stanford.edu/~jurafsky/slp3/16.pdf Whisper自体には詳しくないけど、ASRモデルでは通常、デコーダーが「未来」（つまり、デコードしようとしているチャンクの後の音声）を見ている感じで、文法的な生成物が「アイスクリームが好き」とか「アイスクリームが好きだ」とかが選ばれるように、言語モデルがデコーディングをガイドしているんだ。

Hacker Newsで議論の続きを見る

ハクソク