世界を動かす技術を、日本語で。

Veo 3とImagen 4、そして映画制作のための新しいツール「Flow」

概要

  • Google DeepMindが 最新の生成メディアモデル 「Veo 3」と「Imagen 4」を発表
  • 新AIツール「Flow」で 映像制作の表現力 を大幅に強化
  • 音楽生成モデル「Lyria 2」も クリエイター向けに拡張提供
  • 生成物には SynthID透かし でAI生成の識別を徹底
  • クリエイターと協力し、 責任あるAI活用 を推進

Google DeepMindの最新生成AIモデルとクリエイティブツール発表

生成AIモデルの進化とクリエイター支援

  • Google DeepMindが Veo 3Imagen 4 という新しい生成AIモデルを発表すること
  • Veo 3は 動画と音声 を同時生成でき、クリエイターの表現力を拡張すること
  • Imagen 4は 高精細な画像生成 と優れたタイポグラフィ性能を持つこと
  • 音楽生成モデル Lyria 2 の提供範囲を拡大し、より多くのミュージシャンが活用可能となること
  • クリエイターやアーティスト、YouTubeクリエイターと 連携しながら開発 を進めること

Veo 3:映像と音声の融合

  • Veo 3は 従来のVeo 2を超える品質 で、動画内の環境音やキャラクターの会話も生成すること
  • テキストや画像によるプロンプトから 物理法則やリップシンクも高精度 で再現すること
  • Geminiアプリ(米国)やFlow、Vertex AI でUltraプラン利用者向けに提供開始すること

Veo 2のアップデート

  • Veo 2に 新機能 を追加し、映像制作者の要望を反映すること
    • 参照画像による キャラクターやスタイルの一貫性制御 を可能にすること
    • カメラ操作(回転、ドリー、ズーム) による撮影表現の精密化
    • アウトペインティング で縦横比の拡張やシーン追加を実現すること
    • オブジェクト追加・削除 で自然な映像編集を可能にすること
  • Flowでこれらの機能を利用可能、今後Vertex AI APIにも順次追加予定であること

Flow:クリエイター向けAI映像制作ツール

  • Flowは Veo、Imagen、Gemini を統合したAI映像制作ツールであること
  • 自然言語で映像指示 ができ、キャスト・ロケーション・オブジェクト・スタイルを一元管理できること
  • Google AI Pro/Ultraプラン(米国)で提供開始、他国展開も予定すること

Imagen 4:高品質画像とタイポグラフィ

  • Imagen 4は 細部の描写力が向上 し、写真・抽象画どちらにも対応すること
  • 2K解像度、様々なアスペクト比 で画像生成でき、印刷やプレゼンにも適すること
  • スペル・タイポグラフィ性能 が大幅に向上し、カードやポスター、コミック制作が容易になること
  • Geminiアプリ、Whisk、Vertex AI、Workspace(Slides, Vids, Docs等)で利用可能
  • Imagen 3の10倍高速なバリアント も近日提供予定であること

Lyria 2:音楽制作の新たな可能性

  • Lyria 2を活用した Music AI Sandbox を拡大し、音楽クリエイターが新しい表現を探索できること
  • YouTube ShortsやVertex AIでLyria 2が利用可能
  • Lyria RealTime によるリアルタイム音楽生成・制御・パフォーマンスもAPIやAI Studioで提供すること

責任ある生成AIとSynthID

  • 2023年から SynthID によって100億以上の画像・動画・音声・テキストに透かし付与を実施すること
  • 生成物には SynthID透かし を継続して付与し、偽情報や誤認リスクを低減すること
  • SynthID Detector という新しい検証ポータルで、AI生成コンテンツの識別を支援すること
  • すべての生成AIモデルで 人間の創造力を解放し、迅速なアイデア実現 を目指すこと

このように、Google DeepMindは最新AIモデルとツールで クリエイターの表現力を飛躍的に向上 させ、 責任あるAI活用透明性の確保 に注力していることが特徴です。

Hackerたちの意見

フクロウとおじいさんの動画にはちょっと不気味な感じがしたな。折り紙の動画はなんか悪意を感じて、ちょっと脅迫的で攻撃的に見えた。

それは自分自身の反映だよ。折り紙は僕にとって映像より音声の方が重要だった。まさにこんな音がするって感じ。

ページの下の方には、編みぐるみキャラクターのバージョンがあって、こっちの方がずっと良い感じだよ。これらの中には、現実から少し離れることで不気味の谷を避けられるものもあるみたい。

フクロウのやつは、なんか多くのAI画像にある光沢があったね。男の人はすごく印象的だった。

この20年でめちゃくちゃ進歩したよね。昔は、恐ろしい谷を生成するのに大規模な開発チームやアーティスト、巨大なコンピュータクラスター、レンダリング時間が必要だったけど、今は巨大なコンピュータクラスターと推論時間だけで済むんだ。

テストしてみたけど、Imagen 4は比較チャートでImagen 3よりスコアが高くないね。約60%のプロンプト遵守精度だよ。 https://genai-showdown.specr.net

既存のプロンプト遵守の最先端がこんなに悪いのに、https://icon.comみたいな会社はどうやって画像生成してるんだろう?

すごいショーケースだね!楽しい説明もあるし、似たようなサイトはある?

どうやって結果が失敗する前に何回試みが行われたかを決めるの?

OpenAI 4oの「The Yarrctic Circle」の勝利した画像は、実際にはカットラスを持ってないんだよね。見た目はすごく美しいけど、基本的な部分ではすごく間違ってる(視点が意味不明で、体の構造もおかしくて、片方の足がもう片方の150%長いとか…)。既存のモデルの限界を知るための面白いリソースだよ。

Imagen 4を使ってるかどうか、どうやって分かるの?Geminiはどのモデルを使ってるか教えてくれないみたい。Vertex AI使ってるの?

もっと難しい例: - ワインが満杯のワイングラス(つまり、半分じゃなくて) - 腕時計がVを示してない(針が10時と2時) - 9ステップのIKEAの棚の組み立て説明図 - 何か体操やスポーツのアクロバット

"Not the Bees"の勝利作品の手は、どのドライバーとも全然違う。これをパスとしてカウントすることはできないな。

"イルカがその尾ひれを使って人魚をしつけてる、尻を叩いて。" うーん。

この文体が大好きだわ。

なんで一回の成功で勝利を宣言するのに、失敗したモデルには何度も挑戦するのか気になるな。モデルが「正しく」できるかどうかを測ってるの?それとも、頻繁に「正しく」できるかどうかを測ってるの?成功率の方が良い指標だと思うし、少なくとも成功率の閾値を設定した固定の試行回数があった方がモデルの成功を判断しやすいと思う。

わあ、これすごい作品だね!音声と映像がこんなにマッチしてるなんて驚きだし、対話も専用のボイスモデルと同じくらい良い感じ。

今の時点で、もしまだなら、もうすぐみんなAI生成の動画のクリップを見て何も思わなくなると思うよ。明らかになるまで気づかないことだし、明らかな例を見れば見るほど、非明らかな例は見逃しちゃうね。

誰かVeo3を実際に試した人いる?これが見た目通りの良さか知りたいんだけど。Soraのデモ動画はすごく良さそうだけど、実際に使うとかなりイライラするし、当たり外れがあるんだよね。

プロ用ツールがオープンソースのバージョンを大きく上回っている感じがする。wanやhunyuanはしっかりした無料オプションだけど、GoogleやRunwayの最新作は一段上のレベルに感じる。興味深いのは、最大の違いは編集ツールにあるってこと - 動きや方向、カット、音声の組み込みを促す能力が、単に一発撮りの能力だけじゃないんだよね。これらの大手企業は明らかにエージェンシーやハリウッドのユースケースを狙ってる。いつそれがニッチな選択肢じゃなくてデフォルトになるのか、楽しみだな - その時が予想以上に早く近づいている気がする。ここでの結果は素晴らしいけど、まだ一世代か二世代先の話だね。

オープンソースは便利さが劣るにもかかわらず、プロの環境でまだ重要な利点があると思う。それは、生成プロセスの間にコントロールネットや新しいコンセプトやキャラクターのカスタムロラスを追加できる可能性だね。さらに、ローカル生成では、プラットフォームのモデレーションに制限されることがないから、厳しすぎたり恣意的だったりして、誤検知で失敗することもない。確かに、最初は使いやすいチャットGPTのようなUIに比べて、快適なUIは intimidating に感じるかもしれないけど、コントロールがないと、これらのツールは短期的にはプロの制作には使われないと思う。むしろ、小さなYouTubeチャンネルや小規模な制作で使われることが多いんじゃないかな。

エージェンシーやハリウッドのユースケース。それは広告のためだよ。

wanやhunyuanは確かに無料の選択肢だけど、GoogleとRunwayの最新作、TencentのHunyuanチームが開発中のものがあるよ。Hunyuan Image 2.0 [1] が金曜日に発表されたんだけど、めっちゃすごい!テキストから画像、画像から画像への変換が超高品質で、ミリ秒単位の遅延で動くんだ [2]。その速さのおかげで、Kreaの製品をほぼ完全に複製したリアルタイム2D描画キャンバスアプリケーションも作っちゃったんだ。残念ながら、チームは前のリリースとは違って、今回はクローズドソースにしているみたい。Hunyuan 3D 2.0は良かったけど、驚くべきHunyuan 3D 2.5 [3] はまだリリースされてない。Hunyuan VideoはWanよりも改善されてないけど、Wanは最近VACE [4] を追加して、マルチモーダルコントロール層と編集層を持ってる。Comfyの人たちはVACEとWanで大盛り上がりだよ。

GAIが存在するって分かるのは、違いがない時だと思う。だって、どんなレベルの品質でもコード化できるからね :)

技術的にはすごく印象的で、これを実現したチームには敬意を表するよ。でも、ちょっと悲しい気持ちになる。もっとAIを使って非クリエイティブな仕事を自動化して、クリエイターたちがAI生成コンテンツの山に埋もれないようにしてほしいな。

録音を使えるようになって、もうミュージシャンを雇わなくてもいいって、悲しいと思う?

クリエイターたちをAI生成コンテンツの山に埋めること。プロンプトに入れる内容がクリエイティビティじゃないの?既存のスケッチを基にモデルを手動で作成したりリギングしたりするのが、ここで自動化されている非クリエイティブな仕事じゃないの?

この話題が出るときのゲートキーピングの量がすごいね!もっと多くの人が自由に創作できるようになることを喜べないのかな?個人的には、AIが私たちに新しいクリエイティブな扉を開いてくれるのが待ちきれないよ!

アート(特にデジタルアート)の流通は最近の現象だよね。それ以前は、人類の歴史の中でアートは一回限りのものだった。私たちはその時代に戻るだけなのかな?音楽も同様で、録音技術がなかった頃は、ライブパフォーマンスが主流だった。デジタル時代はアートの歴史の中で変なブリップと見なすこともできるね。

非クリエイティブな作業は来ると思うけど、もっと難しいし、正確さが必要で、全体的にもっと努力が必要だよ。でも、100%来るよ。今のAIは約80%の完璧さで一発でできる。でも、それ以上の精度が必要な場合、その最後の20%を得るのはすごく大変なんだ。国を横断するジェット機に乗って、ホテルに向かうタクシーで渋滞にハマるような感じだね。

自動化できる非クリエイティブな作業はたくさんあるよ。この動画でYouTuberのネイト・ハークがアーキテクチャの計画について話しているときのワークフローとエージェントデザインパターンを見てみて:https://m.youtube.com/watch?v=Nj9yzBp14EM 非クリエイティブな作業の自動化についてはあまり話されないけど、派手じゃないからね。でも、すごく楽しいし、LLMと一緒にこれらの自動化を共同設計できるって約束するよ。

良くも悪くも、AI開発の大部分(ほとんど全てと言ってもいいかも)が、ユーザーに対する広告のマッチングや検索結果のランキングのような非クリエイティブな作業に使われていると思う。これは興奮する見出しやショーケースにはならないけどね。

ロボティクスは今後数年で進展するだろうね。AI2027の人たちを信じるなら、次の10年で大部分の作業が自動化されるって言ってるけど、毎日それがますます現実味を帯びてきてる気がするよ。

この種の技術は、映画制作をもっと広いクリエイティブな才能の基盤に開放するだろうね。

創造的でない作業のデータは、他人の同意なしに「取得」するのはそんなに簡単じゃないよね。

モデルが作り出すことで、アーティストが自分のクリエイティブなビジョンを実現するというのは面白い論理だね。新しい時代がもたらすのは、何か別のものが作り出して、あなたは「ビジョンを具現化する」だけなんだけど、それが何を意味するのかは読者に疑問を残す。ここでの「ビジョン」とは、あなたのテキストプロンプトのこと?ツールがプロセスをオプショナルにするほど強力になった今、私たちは岐路に立っている。そうなると不快な疑問が浮かぶ:もう作らなくてもいいなら、人々はその過程をまだ大切にするのか?ビジョンだけで十分なのか?人生のクリエイティブな目的は何なのか?作ることなのか、それともクリエイティブなビジョンを具現化することなのか?創造の行為は微妙に再定義されているんじゃない?

2〜3の非常に大きな企業が生産手段を握るように再定義されているんだ。それは彼らにとって非常に便利な再定義だよ。

2022年からAIアートをやってるけど、まだがっかりしてるし、同時に驚きもしないな。AIを使って高品質なものを作るには、こんなに複雑なことが必要だっていうのが、まだ広まってるのがね。高品質なAIコンテンツを取って、そのクリエイターにワークフローを聞くと、実際に高品質なものを作るために必要な複雑さやニュアンスがすごく多いってすぐに分かるよ。質をソーシャルメディアの指標、リーチ、あるいは新しさやニュアンスといった芸術的な指標で測っても、高品質なコンテンツやアートには、ツールに関係なく、かなりのスキルと努力が必要だよ。参考として読むべき標準: https://archive.org/details/Bazin_Andre_The_Ontology_of_Phot...

テキストプロンプトは今はすごく短いけど、プロンプトのフォローが改善されればすぐに変わるかもね。ソフトウェアエンジニアは、自分が入力したソースコードを通じて、自分のビジョンをソフトウェアやシステム、ビデオゲームに具現化するんだ。

LLMプロバイダーは、a) あなたのスキルや認知をアウトソースすることで、彼らのサービスに依存させたいと思っていて、b) その依存を利用して、あらゆる経済活動から利益を得ようとしてるんだ。

オペラや劇場、手描きのアートに何が起こったかを見れば、結論が出るよね。人間は一般的に、新しくて作りやすいもの(デジタル音楽やテレビ、デジタルアート)に移行するんだ。そして、少数の人たちが古い創作方法を高尚なアートとして扱うのは、それが学ぶのも実装するのも難しくて高価だからなんだよね。

でも、これが何を意味するのかは読者に疑問を残すよね。君の「ビジョン」って、テキストプロンプトのこと?そうだね。個人的には、クリエイティブなビジョンがプロンプトに還元できるなんて考えるのは、想像力に障害があると思うよ。クリエイティブなビジョンが自然な媒体の中で生きることを考えると、ビジョン、アーティファクト、プロセス、アートそのものの正確な関係は哲学的に無限に議論できるけど、アーティファクトだけがアートが存在する意味のある基盤だと思うのは、プラトンの洞窟のような混乱に思えるよ。本当の意味と表現の違いを混同しているみたいだし、プログラマー仲間にとっては、データへのポインタとデータそのものを混同しているようなものだね。

制作価値が低いインディ映画でも、悪い演技でもあなたを引き込んで、笑わせたり泣かせたりすることができる。質の一貫性が重要なんだよね - たとえそれが低品質でも。演出はシーン全体を通しての赤い糸なんだ。質の異なるものがあると流れが途切れて、体験が壊れちゃう。今の段階でAI動画コンテンツの問題は、クリップ自体はすごく良いけど(LLMの結果もそうだけど)、それを組み合わせて個々のクリップを超えて関与させるのは、長い間無理だと思う。音声に赤い糸があるところではうまくいく(例えば、タイトルシーケンス)けど、いくつかのクリップを組み合わせてその糸をサポートすることはできる。でも、今の段階ではハリウッドは何も恐れる必要はないよ。それに、ビジュアルアーティストは純粋な意味でのコントロールフリークだってことを忘れないで。フィルムはその粒子のために使われているのであって、それを避けるためじゃない。24pが主流だね。

もうすでに、誰もが見ることができる以上の良いコンテンツがあるよ。アートの強さと配信の強さを切り離すのは不可能だね。文化の最大の配信者であるGoogleは、解決する必要のないこの問題に焦点を当てていて、実際にアートでみんなが苦しんでいる問題には目を向けていない。だって、彼らはこれが苦手だから。シンプルなことだよ。

AI動画はハリウッドにとって、写真が絵画にとってのような存在かもしれないね。写真は「絵画よりも良いもの」じゃなくて、全く別のものだった。AIネイティブな動画は、典型的なハリウッドの3幕構成とは似てないかもしれないけど、もしそれがハリウッドから十分に視聴者を奪ったら、ハリウッドは結局死んじゃうよ。

YouTubeでNeuralVizを調べてみるといいよ。登録者数は18万人。彼らはAI動画ツールを使って、まるごとシネマティックユニバースを作り上げてるんだ。そして、ここ数年で見た中で一番面白いショーだよ。「個々のクリップを超えて関与することは長い間できない」っていう主張は真実じゃない。もうみんなやってるから。 https://www.youtube.com/@NeuralViz

グーグルがダーレン・アロノフスキーのAI駆動スタジオ「プリモーディアル・スープ」と提携したみたい。SAG-AFTRAのストライキがハリウッドのスタジオでAIを禁止するためのもので、この新しいスタジオには影響しなかった理由がまだ分からないんだけど、誰か知ってる?

プリモーディアル・スープはギルドの署名をしてないから、ストライキ中に交渉された合意に縛られてないんだ。それに、彼らのプロジェクトにギルドの俳優を雇うこともできないけど、会社の性質を考えると、それはあまり問題にならないだろうね。