世界を動かす技術を、日本語で。

Veo 3とImagen 4、そして映画制作のための新しいツール「Flow」

2025年5月21日原文(blog.google)

概要

  • Google DeepMindが 最新の生成メディアモデル 「Veo 3」と「Imagen 4」を発表
  • 新AIツール「Flow」で 映像制作の表現力 を大幅に強化
  • 音楽生成モデル「Lyria 2」も クリエイター向けに拡張提供
  • 生成物には SynthID透かし でAI生成の識別を徹底
  • クリエイターと協力し、 責任あるAI活用 を推進

Google DeepMindの最新生成AIモデルとクリエイティブツール発表

生成AIモデルの進化とクリエイター支援

  • Google DeepMindが Veo 3Imagen 4 という新しい生成AIモデルを発表すること
  • Veo 3は 動画と音声 を同時生成でき、クリエイターの表現力を拡張すること
  • Imagen 4は 高精細な画像生成 と優れたタイポグラフィ性能を持つこと
  • 音楽生成モデル Lyria 2 の提供範囲を拡大し、より多くのミュージシャンが活用可能となること
  • クリエイターやアーティスト、YouTubeクリエイターと 連携しながら開発 を進めること

Veo 3:映像と音声の融合

  • Veo 3は 従来のVeo 2を超える品質 で、動画内の環境音やキャラクターの会話も生成すること
  • テキストや画像によるプロンプトから 物理法則やリップシンクも高精度 で再現すること
  • Geminiアプリ(米国)やFlow、Vertex AI でUltraプラン利用者向けに提供開始すること

Veo 2のアップデート

  • Veo 2に 新機能 を追加し、映像制作者の要望を反映すること
    • 参照画像による キャラクターやスタイルの一貫性制御 を可能にすること
    • カメラ操作(回転、ドリー、ズーム) による撮影表現の精密化
    • アウトペインティング で縦横比の拡張やシーン追加を実現すること
    • オブジェクト追加・削除 で自然な映像編集を可能にすること
  • Flowでこれらの機能を利用可能、今後Vertex AI APIにも順次追加予定であること

Flow:クリエイター向けAI映像制作ツール

  • Flowは Veo、Imagen、Gemini を統合したAI映像制作ツールであること
  • 自然言語で映像指示 ができ、キャスト・ロケーション・オブジェクト・スタイルを一元管理できること
  • Google AI Pro/Ultraプラン(米国)で提供開始、他国展開も予定すること

Imagen 4:高品質画像とタイポグラフィ

  • Imagen 4は 細部の描写力が向上 し、写真・抽象画どちらにも対応すること
  • 2K解像度、様々なアスペクト比 で画像生成でき、印刷やプレゼンにも適すること
  • スペル・タイポグラフィ性能 が大幅に向上し、カードやポスター、コミック制作が容易になること
  • Geminiアプリ、Whisk、Vertex AI、Workspace(Slides, Vids, Docs等)で利用可能
  • Imagen 3の10倍高速なバリアント も近日提供予定であること

Lyria 2:音楽制作の新たな可能性

  • Lyria 2を活用した Music AI Sandbox を拡大し、音楽クリエイターが新しい表現を探索できること
  • YouTube ShortsやVertex AIでLyria 2が利用可能
  • Lyria RealTime によるリアルタイム音楽生成・制御・パフォーマンスもAPIやAI Studioで提供すること

責任ある生成AIとSynthID

  • 2023年から SynthID によって100億以上の画像・動画・音声・テキストに透かし付与を実施すること
  • 生成物には SynthID透かし を継続して付与し、偽情報や誤認リスクを低減すること
  • SynthID Detector という新しい検証ポータルで、AI生成コンテンツの識別を支援すること
  • すべての生成AIモデルで 人間の創造力を解放し、迅速なアイデア実現 を目指すこと

このように、Google DeepMindは最新AIモデルとツールで クリエイターの表現力を飛躍的に向上 させ、 責任あるAI活用透明性の確保 に注力していることが特徴です。

Hackerたちの意見

フクロウとおじいさんの動画にはちょっと不気味な感じがしたな。折り紙の動画はなんか悪意を感じて、ちょっと脅迫的で攻撃的に見えた。

それは自分自身の反映だよ。折り紙は僕にとって映像より音声の方が重要だった。まさにこんな音がするって感じ。

ページの下の方には、編みぐるみキャラクターのバージョンがあって、こっちの方がずっと良い感じだよ。これらの中には、現実から少し離れることで不気味の谷を避けられるものもあるみたい。

フクロウのやつは、なんか多くのAI画像にある光沢があったね。男の人はすごく印象的だった。

この20年でめちゃくちゃ進歩したよね。昔は、恐ろしい谷を生成するのに大規模な開発チームやアーティスト、巨大なコンピュータクラスター、レンダリング時間が必要だったけど、今は巨大なコンピュータクラスターと推論時間だけで済むんだ。

テストしてみたけど、Imagen 4は比較チャートでImagen 3よりスコアが高くないね。約60%のプロンプト遵守精度だよ。 https://genai-showdown.specr.net

既存のプロンプト遵守の最先端がこんなに悪いのに、https://icon.comみたいな会社はどうやって画像生成してるんだろう?

すごいショーケースだね!楽しい説明もあるし、似たようなサイトはある?

どうやって結果が失敗する前に何回試みが行われたかを決めるの?

OpenAI 4oの「The Yarrctic Circle」の勝利した画像は、実際にはカットラスを持ってないんだよね。見た目はすごく美しいけど、基本的な部分ではすごく間違ってる(視点が意味不明で、体の構造もおかしくて、片方の足がもう片方の150%長いとか…)。既存のモデルの限界を知るための面白いリソースだよ。

Imagen 4を使ってるかどうか、どうやって分かるの?Geminiはどのモデルを使ってるか教えてくれないみたい。Vertex AI使ってるの?

もっと難しい例: - ワインが満杯のワイングラス(つまり、半分じゃなくて) - 腕時計がVを示してない(針が10時と2時) - 9ステップのIKEAの棚の組み立て説明図 - 何か体操やスポーツのアクロバット

Hacker Newsで議論の続きを見る