Gemini 2.5 フラッシュイメージ

2025年8月26日原文(deepmind.google)

概要

Gemini 2.5 Flash Imageは、画像生成と編集のための最新AIモデル。キャラクターやシーンの一貫性を維持しつつ、詳細なカスタマイズが可能。複数のプロンプトや組み合わせで創造的なアート制作を実現。現実世界の知識や論理も反映し、会話形式で操作可能。安全性・プライバシーにも配慮した設計。

Gemini 2.5 Flash Imageの特徴

キャラクターの一貫性 同じキャラクターを様々な衣装、ポーズ、ライティング、シーンで再利用可能。
- 自分自身の再現 過去の時代や異なる場所、子供の頃の夢の職業での自分を表現。
自然言語による詳細操作 日常会話のような指示で画像作成や編集が可能。
- 背景や小物の変更 例：ヘルメットやドアミラーの除去、環境の雪山化など。
- キャラクターのカスタマイズ 髪色の変更、衣装の指定、ポーズの調整。
- 複数プロンプトの活用 一人の人物を教師、彫刻家、看護師、パン職人など多様な職業で表現。
画像の合成・リミックス 最大3つまでの画像を合成し、新しいアートやシュールな作品を作成。
- 異なる要素の融合 例：バナナの皮の中に電球、蓮の花の中のシンクロ選手。
デザインの境界を拡張 ファッション、インテリア、パターン変更など多彩なデザイン提案。
- 時代やスタイルの再現 例：1960年代のレコーディングスタジオ、1980年代風の寝室、アールデコ調のリビング。
ストーリー性のある画像生成 一つのプロンプトから複数の画像を生成し、物語をビジュアルで展開。
- 言葉なしのストーリーテリング 例：2人の青いキャラクターによる1960年代音楽シーンの8部作、フィルムノワール風12部作。
高度な現実世界知識と論理 Geminiの推論能力により、現実的なロジックに基づいた画像生成。
- 会話型インターフェース 画像生成後も会話を続けて修正や追加指示が可能。
安全性と責任ある設計 データフィルタリングやラベリングによる有害コンテンツの排除。
- SynthIDによる透明性 すべての生成画像にAI生成を示す不可視のデジタル透かしを埋め込み。

制限事項・改善点

顔や細部の描写 小さな顔や複雑なスペル、細部の再現が苦手な場合あり。
キャラクターの一貫性 一貫性は高いが、完全ではなく今後も改善予定。

まとめ

Gemini 2.5 Flash Image は、直感的な操作と高い創造性を両立した画像生成AI。
安全性・プライバシー を重視しつつ、現実的かつ多彩な表現が可能。
開発者向け情報 や詳細は公式ブログを参照。

Developers Announcement

Hackerたちの意見

参考までに、これは有名なナノバナナモデルで、今はLMArenaでgemini-2.5-flash-image-previewに名前が変わったんだ。

└

https://medium.com/data-science-in-your-pocket/what-is-googl... ナノバナナが何か知らない人向けだね。

└

これを知りに来たんだ。ありがとう！

あのランプの例はかなり印象的だね（どれだけ選りすぐりかは分からないけど）。ランプがついてて、シーンのものを照らして、影も落としてる。

ChatGPTの画像生成よりもかなり速いのがいいね。生成に時間がかかるから、アプリが待たないようにって言って、生成が終わったら通知を送ってくる。

└

「Gemini 2.5 Flash Imageを使ったOpenAIの投資家の画像を生成する」

すごく印象的だね。テキストから画像を生成するモデルには深く感心してるけど、その影響についてはちょっと警戒心もあるんだ。普通のFacebookの投稿の下にあるコメントを見てみて。

└

先週末、（失敗した）SpaceXの打ち上げ中に1万5千ドルのBTCを騙し取られたよ。エロンのディープフェイクを信じて送金しちゃった。技術がすごく説得力があって、攻撃がますます巧妙になってる。

└

GoogleのSynthIDを画像に使ってテストしてるんだけど、完璧ではないものの、かなり良いよ。これらの画像が現実の認識にどう影響するかという不安感が少し和らいだ気がする。圧縮やトリミング、リサイズなどの変換にも耐えられるし、色フィルタリングや上塗りの変更にも耐えられるんだ。

└

Facebookのコメントも明らかにボットだよね。

└

コメントもおそらくAI生成だと思うよ。たくさんの人がいるサイトの方が、空っぽの荒野より魅力的だからね。

最近の優れた指示に従う画像編集ツールでやりたいことがあって、ずっと考えてたんだ。詳しくは言わないけど、基本的には「画像1をそのまま生成して、オブジェクトAを画像2に描かれているオブジェクトに置き換えて」って感じ。画像2は正面から見た一般的なバージョンで、理想的にはモデルがそのオブジェクトをシーンに完璧に配置して、既存のオブジェクトを置き換えてほしいんだ。位置を特定できれば理想的だけど、そうでなくても何をすればいいかをうまく説明できればいいんだ。複数の画像を受け付けないモデルには、置き換えたいオブジェクトの周りに青いボックスを描いて、置きたいオブジェクトを画像の下に単独で貼り付ける方法を試してみた。いくつかの古いモデルやChatGPT、先週のqwen-image、そして今のモデルも試したけど、どれもダメだった。公平に言うと、このモデルはかなり近いところまで行ったけど、シーンの間違ったオブジェクトを置き換えたんだ。でも、位置はほぼ正しかったし、オブジェクトは完璧に向きと照明が整ってた。でも、間違ってた。（バウンディングボックスの方法を使ったのに、正確にやりたいことを特定できなかった。代わりに、バウンディングボックスを削除して、別のオブジェクトを近くの位置に置き換えちゃった。）特定の位置を例の画像を参考にして埋め込んだり置き換えたりするために特別に訓練されたモデルってあるのかな？それともこれは本当に難解なタスクなの？今のところ、見つけたインフィリングモデルはテキスト入力に基づいてるだけなんだ。

Hacker Newsで議論の続きを見る

ハクソク

Gemini 2.5 フラッシュイメージ

概要

Gemini 2.5 Flash Imageの特徴

制限事項・改善点

まとめ

Hackerたちの意見