世界を動かす技術を、日本語で。

ジェミニオムニ

概要

  • Gemini Omni は高度な推論と創造力を融合したAIモデル
  • マルチモーダル対応や編集機能で 世界理解 と表現力が向上
  • 安全性・倫理 に配慮した多段階の評価と審査体制
  • 生成コンテンツには 透明性 を担保するデジタル透かしを付与
  • Google FlowYouTube Shorts など多様なクリエイティブ用途で活用可能

Gemini Omniの特徴

  • 推論能力創造力 の両立による新しいAI体験
  • 画像・動画・音声・テキストなど マルチモーダル な入力・出力対応
  • 編集機能による 高精度なコンテンツ生成
    • 例:手の穴で地面を拡大ズームする映像生成
    • 例:動画内の指が動物おもちゃに触れると鳴き声を再生
    • 例:音楽と連動してアパートの明かりが点灯する演出
    • 例:バイオリニストを別画像環境に転送、バイオリンを透明化、カメラアングル変更
    • 例:宇宙船を任意オブジェクトに変換
    • 例:チェーンリアクション風トラックを高速で転がるビー玉のスムーズなショット
    • 例:クレイアニメでタンパク質フォールディングのストップモーション解説
    • 例:スキューモーフィズムで海馬の働きを声のみで解説(テキスト・シーホースなし)
    • 例:アルファベット26文字をユニークな物体でテンポよく紹介、手書き風ローワーサード付き
    • 例:単語ごとに異なるアニメーションでリズム良くテキストを表示

プロンプト作成ガイド

  • 現実的かつ一貫性ある アウトプットのためのプロンプト作成支援
  • 多様な表現 や編集指示に対応可能

安全性・評価体制

  • 自動・人手の評価 をトレーニング中および運用後も継続実施
  • 専門チームによるレッドチーミング で弱点やリスクを検証
  • 自動レッドチーミング で大規模な安全性・セキュリティチェックを補完
  • 倫理・安全性レビュー をリリース前に実施

透明性と検証

  • SynthIDデジタル透かしC2PAコンテンツ認証情報 を自動付与
  • GeminiアプリやChrome、Searchで コンテンツの真偽や編集履歴の検証 が可能
  • ブログ で透明性・検証ツールの拡張情報を公開

Gemini Omniの活用例

  • Google Flow :クリエイター向けAIスタジオ
  • YouTube Shorts :短尺動画作成・発見・視聴
    • ※Google AIサブスクリプションが必要
    • ※機能はプランや地域によって異なる

まとめ

  • Gemini Omniは 直感的なクリエイティブ体験安全性・透明性 を両立
  • 多様なメディア での表現や編集を高精度かつ柔軟に実現
  • 今後も機能拡張 や透明性強化を継続予定

Hackerたちの意見

ブログ記事: https://blog.google/innovation-and-ai/models-and-research/ge... モデルカード: https://deepmind.google/models/model-cards/gemini-omni-flash...

「リミットがリセットされ次第、もっと動画を作れるよ。設定で使用状況を確認してね。まだ動画は作ってないけど。Googleは、誰も試せない素晴らしいAIを作ってるね。でも、プレスリリースはありがとう。」

Googleはよくこういうことをするよね。見せびらかしておいて、実際には渡さない。

俺も!素晴らしい仕事だね。

スクロール中にブラウザがクラッシュするのは、自動再生の動画が原因だよ。表示されてない時は、IntersectionObserverを使って動画を一時停止してほしい。

誰かがLLMを使って作った感じだね。人間が一人もレビューしてないんじゃない?

サファリ?

それもブラウザがクラッシュしまくる。Microsoft Edge使ってるよ。

2017年のiPad Proでは、どの動画も再生すらしない。どっちがマシなのか分からないよ!

君の経験を否定するつもりはないけど、僕のWindows ThinkPad X1のFirefox 150では問題なく動いてるよ。

初めて使ってみたけど、あんまり感動しなかったな。これまでSeedance 2に何万円も使ってきたけど、システムでいくつかサンプルを試した限りでは、Google Omni FlashがSeedanceより優れてる点は見つからなかった。作った動画は、HNのプロフィールリンクにあるよ。

ちょっと気になるんだけど、AIが生成した不動産リスティング動画の法的な影響について心配してる?

同じこと思ってる!Seedance 2.0をちょっと使ったことがある人なら、Geminiが少し遅れてるのがわかるし、Seedance 2.1はもう横に進んでるよね。

Seedance 2は、アメリカの技術が生み出す他のものと比べても素晴らしいよ。ただ、他のモデルと同じように一貫性には苦労してる。もう一つの問題は、著作権の関係でSeedanceがかなり検閲されてること。

「プロンプト: 手の穴の変な形が、見ている地面をより鮮明にズームして拡大しているように見せて。こんな表現がされてる理由があるはずだよね?」

「ハンドホール」で画像検索するのは自己責任でね。

さらに奇妙なことに: > プロンプト: スキューモーフィズムのストップモーション解説で、脳の海馬がどう働くかを魅力的なナレーションで説明する。タツノオトシゴは入れないで。最後に声のカットはなし。テキストもタツノオトシゴは入れない???

うん、動画をよく見ると「レンズ効果」が実際には円形のエリアだけをカバーしてるのがわかるよ。このプロンプトは、作者が手の形をもっと正確に反映させようと何度も試行錯誤した結果だと思う。

一番下に「YouTube Shortsで試す」ボタンがあるよ。ああ、もう…

純粋な人工バカさ: https://www.youtube.com/watch?v=aRJH7HKuD2Y

もし気候の転換点を過ぎてしまってるなら、全湖の水を捨てて、みんなが注目を集めるためにスラップを投稿するのもアリじゃない?今すぐ全ての電力をオフにして、アーミッシュに生き残る方法を教えてもらうのもいいかもね。

僕はAI楽観主義者なんだけど、AI動画だけはちょっと落ち込むな。何でも視覚的に作れるっていうのはすごいけど、もう何も感動しない。2年前に見たらすごいと思った動画を今見ると、最初に思うのは「うーん、これAI?」って感じ。動画に関しては、AIかどうかが本当に気になるんだ。AIを使ってないTikTokがあったら、絶対見たいな。これって変だよね、普段はAI推しの僕なのに。

確実に「かわいい動物が goofy に振る舞う」コンテンツの全体を台無しにしたね。

悪いことばかりじゃないよ: https://www.tiktok.com/@openchub/video/7641631412407274782

逆だと思うな。もっと多くの人がクリエイティブになれるんだよ。DAWが多くの人を音楽家にしたのと同じようにね。今じゃ、ノートパソコンだけでヒット曲が作れるし、クルーなしで動画を制作することもできるようになったんだ。

数週間の間、YouTubeがパッケージ泥棒が仕掛けられた箱に驚く動画を見せたいと思ってるみたいだった。AIが作った短い動画が次々と流れてきて、泥棒が箱を持って逃げる映像があって、その箱が巨大なピンクの雲に爆発するんだ。結局、1つ選んでコメントを見たら、トップコメントが「これは明らかにAIの動画だ。誰がこれを見るの?」って感じで、返信は「俺は泥棒が報いを受けるのを見るのが好きだから」みたいな内容だった。だから、君も俺と同じでAI動画には興味ないかもしれないけど、リアルかどうか気にしない人もたくさんいると思う。ありがたいことに、YouTubeは最終的にそれを俺に見せなくなった。今は、俺が興味あるのはロードレイジの動画だ。登録してる3、4チャンネル以外のフィードは最悪だよ。

入れた分だけ返ってくるよ。すべての生成ツールと同じように、出力の質は入力の質に依存する。適当にプロンプトを組み合わせるだけでは限界があるから、モデルに本当に印象的でユニークなものを生成させたいなら、ちゃんと手を動かさないとね。ComfyUIを使って、自分専用のワークフローを作る必要がある。深く掘り下げて、物事がどう組み合わさっているのか、なぜそうなっているのかを理解すれば、どんな生成モデルでも本当に素晴らしいものが作れるよ。でも、その経験には忍耐と知識が必要だね。

俺の本業は、リアルタイムで剛体の動作をプログラムしたり、他のシミュレーションをしたりしてるんだ。剛体の接触は学ぶのが難しいと思う。なぜなら、本質的に不連続だからね。ソルバーをコーディングしようとするときに気づくことなんだ。だから、いつもこのプロンプトをテストとして使ってる:「ブロックを1つ取り除くときに倒れるジェンガの塔の動画。各ブロックの物理はリアルでなければならない。」それで、ブロックが突然消えたり、他のものに変わったりする動画が出てきたんだ。リンクされた動画は、リアルな物理にこだわった2、3回の反復の後のものだよ。これをちらっと見るだけなら、リアルだと思うだろうね。それでも、これはすごく印象的で、何かへの一歩だと思う。何かは分からないけど。でも、少なくとも俺の仕事がAIに完全に取って代わられることはないだろうってちょっと安心してる :)

そういう動画は本質的に夢みたいなものだよね。板がどう動くべきかの感覚であって、剛体物理の方程式が計算するものじゃない。感じ方はリアルだし(最後はちょっとドラマチックすぎるけど)。もし「スタイリスティックトランスファー」が空間に広がる静止画にうまくいくなら、時間に広がる動きのキャラクターにも効くはずだよね。

最終的な「爆発」を生み出すためのトレーニングデータって何なんだろう…。

でも、少なくとも自分の仕事がAIに完全に取って代わられることはないって少し安心してる :) 正直、動画だけのトレーニングや彼らが使ってるトークン化の仕組みだけでは、完璧なダイナミクスは得られないと思う。ただ、トランスフォーマーは正しいパイプライン(動画じゃないけど)でダイナミクスを学ぶのが結構得意だってことは言っておく価値があるよ: https://arxiv.org/pdf/2605.15305 https://arxiv.org/pdf/2605.09196 ここで言いたいのは、表現的には、根本的に違うアプローチやアーキテクチャなしでも良いダイナミクスを学ぶことができるかもしれないってこと。すでに動画から3Dトラッキングポイントを抽出するモデルもあるから、それを使ってダイナミクスを学ぶことも可能かもしれない(それ自体がエンドツーエンドのアプローチがうまくいく前例になるかも)。

ストリーム可能なものを紹介してくれてありがとう!

全然関係ないけど、武道の技術中の体の動きをシミュレーションするソフトウェアを書くことの実現可能性はどう思う?技術の非効率をシミュレートして特定するためのしっかりしたシミュレーターがあったら便利だなと思うことが多いんだけど、実現可能かどうかは全く分からないんだ。

我々は核融合エネルギーを解決できるはずなのに、代わりに宇宙の鳥の動画を生成してるなんて。市場は時々厳しい女神だね。

一見すると相変わらず印象的だけど、微妙な空間のエラーや、視界から外れて戻ってくるときに変わるジオメトリは、Googleが深い空間理解の問題をまだ解決していないことを示唆してるね。これだけ綺麗で詳細に見えるのに、根本的なトレーニングの問題があると思う。まるで知識やトレーニングに構造がないみたいで、アーティストがまず2Dの構図を理解して、次にパース、光と影をマスターしていくように、段階的に理解を深めるのが理想だと思うんだ。今のは一度に全部を学ぼうとしている感じがする。私は、建物の間取りを渡したら、どんな経路でも正確なフライトスルーを生成できるAIモデルが見たいな。たとえ見た目が悪くてもね。これはただの思いつきじゃなくて、データサイエンス/エンジニアリングの仕事をしてたことがあるから言ってるんだけど、重要な教訓の一つはデータをクリーンにしたりダウンサンプルすることなんだ。100万サンプルのデータセットは、全体を数千サンプルにダウンサンプルするのと比べて、処理に1000倍の時間がかかることもあるし、同じ結論を得るのにかかる時間や労力が少なくて済むんだよね。RLにも似たような論理があると思う。もし都市と同じくらいの電力を消費するデータセンターに1兆サンプルを投入したら、モデルが学ぶのはもっとキュレーションされたトレーニングセットや指向的アプローチで学べたことなんじゃないかな。