世界を動かす技術を、日本語で。

Gemini 2.5 フラッシュイメージ

概要

Gemini 2.5 Flash Imageは、画像生成と編集のための最新AIモデル。 キャラクターやシーンの一貫性を維持しつつ、詳細なカスタマイズが可能。 複数のプロンプトや組み合わせで創造的なアート制作を実現。 現実世界の知識や論理も反映し、会話形式で操作可能。 安全性・プライバシーにも配慮した設計。

Gemini 2.5 Flash Imageの特徴

  • キャラクターの一貫性 同じキャラクターを様々な衣装、ポーズ、ライティング、シーンで再利用可能。

    • 自分自身の再現 過去の時代や異なる場所、子供の頃の夢の職業での自分を表現。
  • 自然言語による詳細操作 日常会話のような指示で画像作成や編集が可能。

    • 背景や小物の変更 例:ヘルメットやドアミラーの除去、環境の雪山化など。

    • キャラクターのカスタマイズ 髪色の変更、衣装の指定、ポーズの調整。

    • 複数プロンプトの活用 一人の人物を教師、彫刻家、看護師、パン職人など多様な職業で表現。

  • 画像の合成・リミックス 最大3つまでの画像を合成し、新しいアートやシュールな作品を作成。

    • 異なる要素の融合 例:バナナの皮の中に電球、蓮の花の中のシンクロ選手。
  • デザインの境界を拡張 ファッション、インテリア、パターン変更など多彩なデザイン提案。

    • 時代やスタイルの再現 例:1960年代のレコーディングスタジオ、1980年代風の寝室、アールデコ調のリビング。
  • ストーリー性のある画像生成 一つのプロンプトから複数の画像を生成し、物語をビジュアルで展開。

    • 言葉なしのストーリーテリング 例:2人の青いキャラクターによる1960年代音楽シーンの8部作、フィルムノワール風12部作。
  • 高度な現実世界知識と論理 Geminiの推論能力により、現実的なロジックに基づいた画像生成。

    • 会話型インターフェース 画像生成後も会話を続けて修正や追加指示が可能。
  • 安全性と責任ある設計 データフィルタリングやラベリングによる有害コンテンツの排除。

    • SynthIDによる透明性 すべての生成画像にAI生成を示す不可視のデジタル透かしを埋め込み。

制限事項・改善点

  • 顔や細部の描写 小さな顔や複雑なスペル、細部の再現が苦手な場合あり。

  • キャラクターの一貫性 一貫性は高いが、完全ではなく今後も改善予定。

まとめ

  • Gemini 2.5 Flash Image は、直感的な操作と高い創造性を両立した画像生成AI。
  • 安全性・プライバシー を重視しつつ、現実的かつ多彩な表現が可能。
  • 開発者向け情報 や詳細は公式ブログを参照。

Developers Announcement

Hackerたちの意見

参考までに、これは有名なナノバナナモデルで、今はLMArenaでgemini-2.5-flash-image-previewに名前が変わったんだ。

https://medium.com/data-science-in-your-pocket/what-is-googl... ナノバナナが何か知らない人向けだね。

これを知りに来たんだ。ありがとう!

あのランプの例はかなり印象的だね(どれだけ選りすぐりかは分からないけど)。ランプがついてて、シーンのものを照らして、影も落としてる。

ChatGPTの画像生成よりもかなり速いのがいいね。生成に時間がかかるから、アプリが待たないようにって言って、生成が終わったら通知を送ってくる。

「Gemini 2.5 Flash Imageを使ったOpenAIの投資家の画像を生成する」

すごく印象的だね。テキストから画像を生成するモデルには深く感心してるけど、その影響についてはちょっと警戒心もあるんだ。普通のFacebookの投稿の下にあるコメントを見てみて。

先週末、(失敗した)SpaceXの打ち上げ中に1万5千ドルのBTCを騙し取られたよ。エロンのディープフェイクを信じて送金しちゃった。技術がすごく説得力があって、攻撃がますます巧妙になってる。

GoogleのSynthIDを画像に使ってテストしてるんだけど、完璧ではないものの、かなり良いよ。これらの画像が現実の認識にどう影響するかという不安感が少し和らいだ気がする。圧縮やトリミング、リサイズなどの変換にも耐えられるし、色フィルタリングや上塗りの変更にも耐えられるんだ。

Facebookのコメントも明らかにボットだよね。

コメントもおそらくAI生成だと思うよ。たくさんの人がいるサイトの方が、空っぽの荒野より魅力的だからね。

最近の優れた指示に従う画像編集ツールでやりたいことがあって、ずっと考えてたんだ。詳しくは言わないけど、基本的には「画像1をそのまま生成して、オブジェクトAを画像2に描かれているオブジェクトに置き換えて」って感じ。画像2は正面から見た一般的なバージョンで、理想的にはモデルがそのオブジェクトをシーンに完璧に配置して、既存のオブジェクトを置き換えてほしいんだ。位置を特定できれば理想的だけど、そうでなくても何をすればいいかをうまく説明できればいいんだ。複数の画像を受け付けないモデルには、置き換えたいオブジェクトの周りに青いボックスを描いて、置きたいオブジェクトを画像の下に単独で貼り付ける方法を試してみた。いくつかの古いモデルやChatGPT、先週のqwen-image、そして今のモデルも試したけど、どれもダメだった。公平に言うと、このモデルはかなり近いところまで行ったけど、シーンの間違ったオブジェクトを置き換えたんだ。でも、位置はほぼ正しかったし、オブジェクトは完璧に向きと照明が整ってた。でも、間違ってた。(バウンディングボックスの方法を使ったのに、正確にやりたいことを特定できなかった。代わりに、バウンディングボックスを削除して、別のオブジェクトを近くの位置に置き換えちゃった。)特定の位置を例の画像を参考にして埋め込んだり置き換えたりするために特別に訓練されたモデルってあるのかな?それともこれは本当に難解なタスクなの?今のところ、見つけたインフィリングモデルはテキスト入力に基づいてるだけなんだ。

そう!アリババのACE++ってモデルがあって、マスクされたエリアを参照画像で置き換えるように特別に訓練されてるんだ。https://phind.designで使ってるよ。ただ、かなり難解で珍しいタスクみたいだけどね。

これは画像編集モデルにとってのgpt 4の瞬間だね。ナノバナナ、別名ジェミニ2.5フラッシュはマジでヤバい!lmarenaで171エロポイントもジャンプしたよ!Twitterでナノバナナを検索すれば、すごい結果が見られるよ。例えばね。 https://x.com/D_studioproject/status/1958019251178267111

「ナノバナナ」の組み合わせはすべて、独自のUIを持つドメインとして登録されてるみたいだけど…これらは人気モデル名を使ってクレジットアービトラージをしている中間業者なのかな?

なんで「ナノバナナ」って呼ばれてるの?

三つ目のやつ、手がどっち向いてるか決められないのがちょっと怖いね。でも、ジェミニがそれを導入したわけじゃなくて、元の画像にあるものなんだ。

これは画像編集モデルにとってのgpt-4の瞬間だ。いや、違うよ。gpt-image-1からリッチな編集機能はあったし、これは単に速くて、(愛情を込めて)「ピスフィルター」と呼ばれるものより見た目が良いだけ。Flux Kontext、SeedEdit、Qwen Editも、かなり能力のある画像編集モデルだよ。特にQwen Editはね。Flux KontextとQwenは微調整も可能だし、プロンプトだけの画像生成の時代はもう終わったんだ。

家族の写真をデジタル化したんだけど、色が変わったり、こぼれたり、フィルムに指紋がついたりして、修正が難しいものが多いんだ。特に顔のディテールを変えずに一括で修復できるように、画像生成が追いつくのを待ってたんだ。これ、ディテールを変えずに画像を復元できるみたいだから、やっとその時が来たかも。

動画ファイルを修復・改善するソフトウェアを知ってる?母が認知症を患い始めた思い出のVideo 2000やVHSカセットをデジタル化してるところなんだ。動画をデジタル化するためのセットアップはかなり整ってるけど、もう少し画質を改善したいんだ。

あなたが挙げた欠陥は、ICE付きのフィルムスキャナーと、スキャンと修復を自動で行うソフトウェア(Vuescanなど)を使えば自動的に修正できるよ。実験的な独自クラウドAIに何百(何千?)もの写真を送り返して、どれだけ奇妙なアーティファクトがあるかわからないような劣化した圧縮画像を返されるのは、必要ない気がする。

うまくいくといいね!私の目には、彼らが示している具体的な例の一つ(「プロンプト:写真を復元」)が、女性の顔をかなりAIっぽくしてるように見える。もちろん、時間が経てば改善されるだろうけどね。

その時期は数ヶ月前にすでにFlux Kontextで来てたよね(https://bfl.ai/models/flux-kontext)。

これらの画像モデルは時間泥棒で、すごく疑わしい目で見ないといけない。部屋を作るのは簡単だけど、同じ部屋の複数の視点を作るのはほぼ不可能。もしこの画像モデルを一貫性のある画像が必要な用途に使おうとしてるなら、諦めたほうがいいよ。

Geminiに画像生成を頼むと、半分の確率で「その能力がない」って言われるんだ。一般的に、Googleが発表する機能を実際に使うのがすごく難しいと感じてる。例えば、機能の1/3は一つの製品に、他のは別の製品にあって、それも使えないし、どこでお金を払ってアクセスすればいいのか全く分からない。めっちゃ混乱する。

そうそう、実際そのウェブサイトには「Geminiで試してみて」って書いてあるけど、私がもう試してるのかどうか分からない。普通のGemini UIでGemini 2.5 Flashを選んだら、これを使ってるってこと?

その盛り上がりが理解できない。Midjourneyで使ったのと同じプロンプトで試してみたけど、結果は一年前のMidjourneyよりも悪い。何か見落としてるのかな?

その盛り上がりは、純粋なテキストから画像への変換じゃなくて、画像編集に関するものだよ。入力画像をアップロードして、何を変えたいか言えば、出力が得られるって感じ。キャラクターやオブジェクトの保存がずっと良くなるんだ。

うーん、盛り上がりは主に画像編集のためだと思うな、生成じゃなくて。ただ、使ったことはないけど! どうやって試してるの?