世界を動かす技術を、日本語で。

レオナルド・キアリリオーネ – MPEGの共同創設者

概要

MPEG は1988年に設立され、デジタルメディア標準化を牽引。 MPEG-1MPEG-2 など、世界の映像・音声配信インフラを構築。 2020年、 MPAI が新たなAI時代の標準化団体として誕生。 MPAI はAI技術を活用した標準を開発し、産業や消費者の課題を解決。 著書で MPEGMPAI の歴史や意義を詳述。

MPEG設立とデジタルメディアの変革

  • デジタルメディア標準化団体 の必要性を認識し、1987年に構想、1988年に設立
  • 団体名を Moving Picture Experts Group (MPEG) と命名
  • 設立4年で MPEG-1 標準を策定、Video CD、デジタルオーディオ放送(MP2)、個人音楽(MP3)などに利用
  • 1990年代半ばから MPEG-2 がケーブル・衛星・地上波・DVDなどのデジタルテレビ配信基盤に
  • MPEG-4 (1988年初版)でインターネット経由のデジタルメディア配信を実現
  • MPEG-7, MPEG-21, MPEG-A, MPEG-H, MPEG-I など多様な標準群を開発
  • 初回会議29名から20倍に拡大した 会員数
  • メディアからゲノム情報まで 標準化範囲 を拡大
  • 200以上の国際標準を策定した 生産性 の高さ

MPEGの終焉と課題

  • 2020年6月2日、自身の離脱とともに MPEGを解散
  • 内部の「不透明な勢力」が 技術・ビジネスの停滞 を招いた
  • 知的財産権ライセンスモデル の時代遅れによる市場導入遅延
  • 新技術の恩恵を産業・消費者が受けられない現状
  • 標準が「機会の創出」から「障壁」へと変質

MPAI設立とAI時代の標準化

  • 2020年7月19日に MPAI 設立を提案、9月30日に33社で正式設立
  • Moving Picture, Audio and Data Coding by Artificial Intelligence (MPAI) の設立趣旨
  • AI技術を基盤とした 新しい標準化 で停滞やライセンス問題を克服
  • 5つの標準 (AIアプリ実行、音声強調、マルチモーダル会話、企業業績予測、エコシステムガバナンス)を開発・採用
  • 今後の標準化予定分野
    • AIベースのエンドツーエンド映像符号化
    • AI強化映像符号化
    • AIヘルス
    • アバター表現とアニメーション
    • コネクテッド自動運転車両
    • メタバースモデル
    • サーバーベース予測型マルチプレイヤーゲーム
    • XR会場

著書による記録と意義

  • 『Even the stars die』 でMPEGの誕生から終焉、MPAIの成長と死までを記述
  • 『Towards Pervasive and Trustworthy Artificial Intelligence』 でMPAIの最初の15ヶ月を記録
    • 5つの標準策定、7プロジェクト進行中(1998年時点)
  • 標準化活動の歴史的意義と今後の展望

Hackerたちの意見

MPEGの背後にある人間のストーリーに触れたことがない私にとって、2020年以前からずっと悪の力だったように感じる。h264やh265、さらにはmp3の特許が、業界を何十年も足止めしてきたんだ。もし彼らのコーデックに対する鉄の支配が崩れたら、どんな未来が待っているんだろうね。

コーデックはたくさんあるけど、普及してないだけだね。

たぶん、何もないかも。コーデックの開発は遅くて高いからね。無料のコーデックが登場したのは、Googleが開発を支援することに決めたからだけど、それもMPEGが誕生してから15年くらい経ってからの話で、そんなのはあまり強い戦略じゃないよ。しかも、無料のコーデックは、以前はIPライセンスをビジネスモデルにしていた企業が買収されて作られたことが多いから、ゼロからの開発じゃないんだよね。

じゃあ、誰がそのコーデックを開発するの?優秀なビデオコーディングエンジニアは年収で10万から30万ドルくらいかかるし、もっと優秀な人はそれ以上だよ。たくさんのエンジニアが必要なんだ。JVETの会議には、毎回約350人のエンジニアが参加してる(年に4回)。それに、コーディングシミュレーションを動かすためのコンピュータクラスターも必要で、研究チームごとに何千ものCPUが必要なんだ。ビデオコーディング業界の外にいる人は、これが産業であることを理解していない。大きな企業が大規模なR&D予算で運営しているんだよ。AIについて「もしGoogleやOpenAI、Nvidiaが鉄の支配を持っていなかったら、どこにいるだろう?」って言ってるようなもんだ。MPEGや特にJVETは順調にやってるし、AVC、HEVC、VVCに関わった同じ企業やエンジニアがまだいるし、特にアジアからの新しい人たちも増えてる。レオナルドってやつが障害になったからMPEGは再編成されたし、彼はそれ以来ずっと怒ってるよ。それ以外は、ビデオコーディングの世界ではいつも通りって感じだね。

h264とh265がその名前で知られていることは、方程式のもう一つの重要な部分なんだ。ITUビデオコーディング専門家グループは、少なくとも2005年から基準を設定するための支配的なフォーラムになっているよ。

「h264、h265、さらにはmp3の特許が、業界を何十年も引き止めてきた。もしコーデックに対する彼らの強い支配が壊れたら、どんな未来が待っているだろう。」 AV1はこれをある程度解決したのかな?特許の主張はあるけど(現代の動画コーデックにとって基本的な技術の特許)、h264やh265の特許・ライセンスの状況よりはマシな気がする。

少なくともMP3については、私たちの共同の悪夢は終わったね。MP3は完全に特許に縛られてなくて、自由に使えるよ。

私にとって、2007年が本当に悪の勢力が本格的に力を持った時期だね。mySpaceの時代が最後の楽しい時代だった。あとはなんか物足りない感じ。

MPEG-7には、他のものと比べてかなり役立つバイナリXML標準[0]が含まれてると思う(DVBメタデータストリームで使われてると思う)。でも特許を超えて、BIMのオープンドキュメントを見つけるのも難しいんだよね。技術的には他の標準グループと比べてかなり優秀だったと思うけど、その周りのビジネスモデルには本当に興ざめだわ。[0] https://mpeg.chiariglione.org/standards/mpeg-7/reference-sof... 編集: ここにBIMのWikipediaページがあるけど、明らかにISO標準にもなったみたいだね。[1] https://en.m.wikipedia.org/wiki/BiM

本当におかしいのは、MPEG LAからライセンスを取得していても、こんな注意書きを入れなきゃいけないことだよね:この製品は、AVC特許ポートフォリオライセンスの下で、消費者が個人的かつ非商業的に使用するためにライセンスされています。具体的には、(I) AVC標準に従ってビデオをエンコードすること(「AVCビデオ」)および/または (II) 個人的かつ非商業的な活動に従事している消費者によってエンコードされたAVCビデオをデコードすること、またはAVCビデオを提供するライセンスを持つビデオプロバイダーから取得したものであること。その他の使用についてはライセンスは付与されず、暗示されることもありません。詳細はMPEG LA, L.L.C.から入手できます。詳細はHTTP://WWW.MPEGLA.COMを参照してください。 このライセンスが仕事目的のビデオ会議をカバーしているかどうかは不明だね(お金をもらってるけど、その通話のためだけではない場合)。リモートチュータリングは除外されるみたい。MPEG LAは、こういう言語要件(またはそれに近いもの)が特許ライセンス契約の一部だから、あまり選択肢がなかったんだろうね。今となっては、商業的にビデオコーデックを使う方法に合わせて条件を再交渉するのはほぼ不可能だと思う。でも、商業用のビデオ会議をカバーするプールライセンスをMPEG LAから取得することはできないから、個々の特許保有者と別に交渉しなきゃいけないってことだね。

そうだね、彼は特許トロールのインキュベーターを30年間運営してたけど、今やその特許トロールに顔を食べられちゃった。

記事はタイトルに書いてあること以上のことはあまり言ってないね。どんな不明瞭な力があって、どうやって?オープンスタンダードの非営利団体じゃないの?それなら、何が妨げになる可能性があるの?技術的にクローズドスタンダードが良くなったから、非営利プロジェクトは商業スタンダードに対抗するリソースがないのかな?USBアライアンスはうまくやってるから、圧縮スタンダードも似たような方法で開発すべきかもね。

彼らのリンクされた本に、全ての話が書かれているらしいよ。

MPEGを創設したレオナルドが言ってることなんだけど、リンク先にこう書いてあるよ:「MPEGエンジンは存在しなくなる前から、技術的にもビジネス的にも行き詰まっていた。MPEGをハイジャックした同じ不透明な力が、その技術開発を妨げ、時代遅れの知的財産ライセンスモデルに縛りつけて、市場でのMPEG標準の採用を遅らせていた。業界は窒息し、消費者は新しい技術の恩恵を受けられなくなった。新しい機会や体験の促進者から、MPEG標準は障害物に変わってしまった。」

私は、AIがビデオコーデックにどう関係してるのか理解できない。たぶん、ビデオコーデックもAIも深いレベルで理解してないからかも。

アップスケーリングみたいなもんだね。もしAIを使って音声や映像を「アップスケール」できるようになれば、送信するデータ量を大幅に減らせるかもしれない。音声ではすでに驚くべき結果が出てるし。

データ圧縮の最先端がAIの最先端と共通点が多いことは、長い間認識されてきたよ。例えば、ここを見てみて: http://prize.hutter1.net/ https://bellard.org/nncp/

AIとデータ圧縮は同じ問題を言い換えたものだね。

すべての予測器は圧縮器であり、すべての圧縮器は予測器だよ。これに興味があるなら、ハッター賞について読むのがいいと思うよ(https://en.wikipedia.org/wiki/Hutter_Prize)。一般的に、ロスレス圧縮は次の(文字/トークン/フレーム)を予測して、その予測からの差分をデータストリームに簡潔にエンコードすることで機能するんだ。予測が上手くいくほど、エンコードする必要が少なくなり、圧縮が良くなる。これの裏側には、圧縮のすべての分野がAIの進歩から多くを得られるということがあるよ。

彼らについて不透明なことなんてないよ。彼のコメントのすぐ後に、何が起こったのかが正確に説明されてるしね:> MPEGエンジンは存在しなくなる前から、技術的にもビジネス的にも行き詰まっていた。MPEGをハイジャックした同じ不透明な力が、その技術開発を妨げ、時代遅れの知的財産ライセンスモデルに縛りつけて、市場でのMPEG標準の採用を遅らせていた。業界は窒息し、消費者は新しい技術の恩恵を受けられなくなった。新しい機会や体験の促進者から、MPEG標準は障害物に変わってしまった。大企業は彼が責任を持っていた仕組みを悪用したんだ。みんなの利益のために協力するための紳士協定が、特許の地雷に変わってしまった。それは彼の監視下で起こったことだよ。関わっていた多くの大企業もそのクソみたいな状況を指摘してたし、特にスティーブ・ジョブズは2002年にAACライセンスの最もひどい部分が修正されるまで新しいQuicktimeをリリースしないと拒否してた。https://www.zdnet.com/article/apple-shuns-mpeg-4-licensing-t...

ZiffDavisの記事から: > QuickTime 6メディアプレイヤーと、ネット上のライブビデオフィードでMPEG-4を簡単に使えるようにすることを目的とした無料アプリケーション、QuickTime Broadcaster。 「ネット上で」って見た時は嬉しかったな…。

私のカトリック教育は、誰もが個人的な利益を超えた使命を持つべきだと考えさせてくれた。私はこの同じ人が、MPEGの恐喝グループへの投資がAV1に対抗できないから消えると不満を言っていたのを覚えている。彼は特許マフィアの一員で、ただ権力を失ったことを嘆いているだけだ。これぞ偽善の極みだね。

彼のコメントへのリンクはある?

もしかしたら、特許なしのディープラーニングに基づく動画コーデックが実現するまで、あと数年かかるかもね。DCVC-RT(https://github.com/microsoft/DCVC)は、h266よりも21%多く圧縮できるって主張してるんだ。エッジAIの魅力的なユースケースの一つは、消費者向けハードウェア上でディープラーニングに基づく音声/動画コーデックを作ることだよ。大規模な企業向けAIのユースケースの一つは、消費者向けハードウェア用のディープラーニングベースの音声/動画コーデックを生成するコーディングモデルを作ることだね。

https://mpai.community/standards/mpai-spg これ、全然意味わかんないよね?仮に適用できるとしても、なんで標準が必要なの?異なるゲームのゲームサーバー間での相互運用性なんてないし。

コンテキストのための一つの詳細: MPEGを「閉じる」時に、彼はすべてのページや資料を削除して、AI関連のものにリダイレクトしたんだ。

「…そして業界を利用する。」ほんと、そうなったよね。

彼の新しい組織MPAIについてどう思う?コーデックのことはあまり詳しくないけど、誰かの意見を聞いてみたいな。