世界を動かす技術を、日本語で。

ウィル・スミスのコンサートの観客は本物だが、AIがその境界を曖昧にしている

概要

Will Smithのコンサート動画がAI生成疑惑で炎上。 実際は本物の観客映像をAIで加工したもの。 YouTube Shortsの自動処理も画質劣化の一因。 Instagram版はYouTube版より自然な仕上がり。 世間の誤解と実際の技術的経緯の違い。

Will Smithコンサート動画炎上騒動の真相

  • Will Smithのコンサート映像が AI生成の偽観客疑惑 でネット上で話題
  • Rolling Stone、NME、The Independent、Consequence of Soundなど 大手メディアが報道
  • 観客の顔やサインに AI特有の不自然な特徴やノイズ が多発
    • 顔の歪み、指や手足の異常、意味不明な標語など
  • 例:「From West Philly to West Swig̴̙̕g̷̤̔͜y」など 意味不明なサイン
  • 癌サバイバーを支援するサインも AI生成と疑われる

実際の観客と映像の出所

  • 映像の観客は 実際のWill Smithコンサートのファン
    • Positiv Festival(フランス)、Gurtenfestival・Paléo(スイス)、Ronquieres Festival(ベルギー)など
  • Paléo Festivalの公式写真と 動画内の観客が一致
  • サインも実際には「From West Philly to West Swizzy」(Swizzy=Switzerlandの略)
  • 癌サバイバーのカップルも Instagram公式投稿や動画で実在確認

AI加工の二重構造

  • Will Smithチームによる 公式写真のAI画像→動画変換
    • Runway、Veo 3などの image-to-videoモデル 活用の可能性
    • 写真を短いアニメーション動画に変換し、モンタージュ映像に使用
  • YouTube Shorts独自の ポストプロセス処理
    • アンシャープ・ノイズ除去 などの画像補正実験
    • Instagram・Facebook版より YouTube版のほうが不自然な仕上がり
    • YouTube公式も「 生成AIは使っていない」と説明
      • ただし「画像強調技術」自体は 機械学習ベース

技術的背景と議論

  • YouTube Shortsの自動補正は スマホの計算写真技術に近い
    • 解像度変更はせず、 鮮明化やノイズ除去 のみ
  • 「Generative AI」かどうかの定義が 曖昧
    • 実際はディフュージョンモデル等の 生成的手法 が使われている可能性
  • Will Smithチームは 観客写真をベースに動画生成
    • 完全な偽群衆生成ではなく 既存ファン映像の加工

結論と世間の反応

  • 多くの視聴者が「 偽観客のAI生成映像」と誤解
  • 実際は「 本物のファン映像をAIで加工→YouTubeでさらに自動補正
  • 完全な偽造映像とは異なる技術的経緯
  • 画像→動画変換の倫理や AI加工の透明性 について議論の余地
  • 「AIで満員の観客を偽装」と断定するのは 事実と異なる

Hackerたちの意見

YouTubeのあるPMが言ってたよ:「そうだ、AIと本物の動画の区別をつけにくくして、知らない人たちをもっと影響を受けやすく、受け入れやすくしよう。」

それが未来だよ。子供たちは、昔の世代とは違うメンタルの歴史を持つことになる。

YouTubeのあるPMが言ってた:「はい、リアルな動画とAIを見分けにくくして、知らない人をもっと受け入れやすくしましょう」これ、逆効果になるかも。人々が本物の重要なニュースが実際にはAI生成だと信じるようになって、洗脳されるかもしれないから、逆に人々が疑うようになるかもね。

それで… AIが混ざったYouTube版と、 supposedly無傷のInstagram版の違いを見せる動画が、なんと… YouTubeにアップされてるの?

実験的な後処理は、ショートにだけ適用されたみたいだね、投稿によると。

どうやら、シャープニングアルゴリズムはYouTubeショートにだけ適用されて、通常のYouTube動画には使われてないみたい。

AIで「アップスケール」された動画って、フレームスムージングが無効になったばかりの新しいテレビみたいに、見るのがすごく不快だよね。90年代のちょっとザラザラした録画でも、これが良く見えると思う人っているの?最近、デヴィッド・ボウイとナイン・インチ・ネイルズのコンサートの録画のリンクが送られてきたんだけど、まるでサイケデリックな体験をしているみたいで、自分の感覚が信じられない感じがした。特に2:00のところでね。https://www.youtube.com/watch?v=7Yyx31HPgfs&list=RD7Yyx31HPg... その動画は、実はすごくぼやけた元の映像から「AIアップスケール」されたものだった。これってアートの選択だと思うし、解像度が低くても、元の映像の方が意図された雰囲気をずっとよく捉えてるよ。https://www.youtube.com/watch?v=1X6KF1IkkIc&list=RD1X6KF1Ikk... 今はかなりいいカメラやレンズがあるから、AIに「品質を向上させる」必要なんてないよね。

それ、めっちゃ面白い! https://i.imgur.com/TVfncya.png

それはひどいね。第二次世界大戦に関するYouTubeの動画で、すごく粒子の粗い白黒フィルムを使ってるのをよく見るけど、それが変に平坦でカートゥーンみたいな感じになっちゃうんだよね。もう動画じゃなくて、アニメの近似みたいになっちゃってる。

AIのアップスケーリングで、NINが1980年代後半のリック・アストリーと一緒に演奏してるみたいに見える。めっちゃ面白い。

親の新しいテレビでお気に入りの番組のエピソードを見てた時、なんかこのエピソードおかしいなって思ったんだ。制作が安っぽいし、演技もひどいし、セリフも悪い。時間が経つにつれて、彼らのテレビで見るものが全部安っぽく見えるようになった。それがオートスムージングだったんだ。 https://en.m.wikipedia.org/wiki/Soap_opera_effect

消費者が望んでいない技術を押し進める現象は、単純なインセンティブの連鎖によって動かされているように見える。株価を維持・上昇させるための株主からのプレッシャー → 市場シェアを増やしたり、価格を上げたり、少なくとも将来の有望な技術をアピールするためのビジネスへのプレッシャー → 新機能を作るためのPMへのプレッシャー → 新しい技術を試したいという開発者の欲求 → 結果:私たちが求めていないAIチャットボットや要約、車のダッシュボードのタッチスクリーン、AIアップスケーリングなど。

変なのは、みんなこれを楽しんでるみたいなんだよね。昨日、パートナーのためにスマホを見に行ったんだけど、彼女は他の条件よりもカメラが良いのを重視してる。現実を最も偽造しているものを好んでいるのを見てしまった。「ほら、ズームできるし、まだシャープだよ」って言ってたけど、ズームと結果の間には明らかに遅延があって、最終的には再構築された液体のような歪んだバージョンになってた。8/16ビットのゲームコンソールエミュレーターで使われているアップスケーリングフィルターに似てた。愛する人が、現実に近いものではなく、顔が滑らかで背景にひどい偽ボケが入った自撮りを見ているのを見て、ちょっと恥ずかしくなった。

不安なのは、アップスケーリングだけじゃなくて、新しいフレームを生成して60fpsにしてるからなんだよね。60fps自体がなんか偽っぽく感じるし(『ホビット』の48fpsの映像を見てみて)。ゲームみたいな感じだよね。60fpsを目指すのがちょっと面白いのは、最近の映像制作では60fpsの映像があまりにもシャープでクリーンすぎることが多いから。だから、映像をかなりポストプロセスしてるんだよね。フィルムグレインを追加して、fpsを30か24(映画)に下げると、もっと自然に見える。これが習慣的なものなのか、好みの問題なのかは疑問だけど、映画業界が50fpsから始まってたら、たぶん24fpsを好まなかったと思う。

僕もあれはゴミみたいに見えると思うけど、小さいモバイルスクリーンだともうちょっと良く見えるかもね。細かいディテールが見えないから、「シャープに見える」って感じるのかも。

アップスケーリングとフレーム補間は好きだけど、いつも通りテレビのハードウェアが良い仕事をするには足りてないよね。ニューラルネットワークモデルを使うと、プラスチックっぽく見えずに、かなり良くなるんだ。

YouTubeみたいなサービスには、この滑らかで非現実的な効果が好まれると思うけど、見た目が良いからじゃなくて、ストレージのために圧縮がうまくいくからなんだよね。全体的に細かいディテールが少ない方が、動画の圧縮には役立つ。

今のところ、2つの根本的なコメントがYouTubeに焦点を当ててるけど、記事ではほとんどのAI処理はウィルのチームがやったって言ってるね。AIを使って静止画を動画に変換したって:> 「この動画には本物のパフォーマンスと観客が映ってるけど、2つのレベルで操作されてると思う。1. ウィル・スミスのチームがプロが撮影した観客の写真からいくつかの短いAI画像から動画クリップを生成した。2. YouTubeがその結果得られたショートモンタージュを後処理して、全体をもっと悪く見せてる。」YouTubeの後処理のサイドバイサイド[1]が見れるけど、元の映像を確実に変えてるけど、実際の悪いAIアーティファクトの原因ではないよ。YouTubeがやってることのほとんどは、ぼやけを少なくすることで、時には成功するし、時にはそうじゃない。しかも、それはショートにだけ適用されてる。 [1] https://youtu.be/Bx5GzIsmEBI

元の動画がAI生成だったことが、アップスケーリングを実際の動画よりも悪く見せる原因になったのかな?確実に検出できるわけじゃないけど、実際の動画はAI生成とは違う点があって、それが「計算写真術」の処理に影響を与えるように思える。

すべてはコピーのコピーのコピーだよ。 https://www.youtube.com/watch?v=pAQ3JuXkDkU

「AIグリッチ」って文字が入ったTシャツを売る会社を立ち上げれば、こういう写真が全部偽物になるね。

数年後には、6本指の義手(生成AIの問題)や5つ目の目のマスク(顔認識の問題)の同じゴミ箱に入ることになるだろうね。

https://www.theverge.com/youtube/765485/is-youtubes-shorts-e... 今日のThe Vergeでは、YouTubeショートのGenAIアップスケーリングについて。そう、AIはここに留まるけど、いやな部分は早く消えてほしいな。

YTショーツでのGenAIのアップスケーリング。リンクされた動画は見れないけど、その説明には「生成AIではない」と書いてある。The Vergeか誰かが違うことを見せてるの?

嫌な部分だけが残るんじゃないかと心配してる。

マーケティング担当者だったら、注目を集めるために本物の画像をAI生成っぽく見せるかも。ミスや偽物ほど注目を集めるものはないからね。実際に偽物じゃないってことは、WSとチームにはデメリットがないってことだし。大手ブランドのソーシャルメディアマネージャーと話したことがあるけど、彼は定期的に投稿に誤字を入れるのが意図的だって言ってた。それがいつも投稿のエンゲージメントを増やすんだよね(人々が誤字を指摘するから)。

それは「レイジベイト」って呼ばれてて、マーケティングでは結構一般的だよ。

新しい『裸の銃を持つ男』の映画がポスターに浮いてる指を追加してるみたいだね、へへ。

「AIを役立てようとするエピソード」で… 本当に、誰のアイデアなのこれ?お金を節約する機能とは思えないし、HDバージョンをホストするよりも、これらの動画をアップスケールする方がコストがかかるはずだよ。それに、低解像度の動画だけに使うって言い訳しても、現実の歪みがすごく心配だよね。

この特定のケースについてはわからないけど、AI生成の映画は絶対に未来になると思う。前景、背景、キャラクターの安定性を持って、欲しいショットを正確に作り出せるようになったら、画像生成と同じように創造性が爆発すると思う。はっきり言うと、「X、Y、Zを使って映画を作って」ってAIに指示することはできないと思うけど、動画生成の技術は着実に進んでるよ。r/aivideoで見られるように。

映画とゲームの境界が曖昧になるだろうね。生成的な映画ができるようになったら、ゲームもできるし、その逆も然り。明確な区別はなくて、技術的な問題が重なってるんだ。ゲームには、こういうスコープされたコントロール入力があるけどね。https://demo.dynamicslab.ai/chaos

[…] 現在の画像生成と同じように創造性が爆発するだろうね。自分の作品を作るスキルや手段がない人たちが、プロンプトを使って生成AIツールで狂ったように遊んでるのをよく見るけど、それが「創造する能力がある」って意味ではあまりクリエイティブだとは思えないし、彼らはそれを外注してるし、「オリジナルで表現力豊かで想像力に富んだ」って意味でもあまり感じないな。