世界を動かす技術を、日本語で。

「Imagen 4」が一般提供開始されました

概要

  • Imagen 4 ファミリーが Gemini APIGoogle AI Studio で一般公開
  • テキスト描画品質高解像度生成 の大幅な向上
  • Imagen 4 Fast は低価格・高速な画像生成を実現
  • 用途・コスト・品質 に合わせてモデルを選択可能
  • 全画像SynthID による透かし付与で責任あるAI運用

Imagen 4ファミリーの一般公開と特徴

  • Imagen 4 ファミリーが Gemini API および Google AI Studio で利用可能
  • テキストから画像生成 の品質が従来モデルより大幅に向上
  • テキスト描画精度細部表現力 が強化された新世代モデル
  • Imagen 4 FastImagen 4Imagen 4 Ultra の3種類を用意
    • Imagen 4 Fast :高速生成・大量処理向け、1画像あたり$0.02の低価格
    • Imagen 4 :幅広い高品質画像生成に最適なフラッグシップモデル
    • Imagen 4 Ultra :最高レベルの細密さとプロンプト忠実度を実現
  • 2K解像度 対応により、より詳細で鮮明なビジュアル制作が可能

具体的な生成例・プロンプト

  • 自然風景 :夜明けの山脈と湖のクリアな反射を描写
  • 4コマ漫画(レトロスタイル)
    • 1コマ目:Chromebookと並ぶ猫、「Imagen 4 is now Generally Available!」のキャプション
    • 2コマ目:犬が「Imagen 4 FASTは$0.02で低遅延画像生成」と発言
    • 3コマ目:猫が「2K画像アップスケーリングも可能!」と発言
    • 4コマ目:猫と犬がハイタッチ、「Try Imagen 4 in AI Studio now!」のキャプション
  • レトロSF映画ポスター
    • エアブラシ風の宇宙船、鮮やかな星雲、クロームフォントのタイトル
    • ヴィンテージ風の枠や小さな免責文も生成

利用開始方法・責任あるAI運用

  • 全画像SynthID による不可視の透かしを自動付与
  • 公式ドキュメントクックブック を通じてすぐに利用開始可能
  • Gemini APIGoogle AI Studio でのクリエイティブな画像生成体験
  • 品質・速度・コスト のバランスで最適なモデル選択が可能

まとめ

  • Imagen 4 ファミリーは 多様なクリエイティブニーズ に対応
  • 高品質画像生成責任あるAI利用 の両立
  • 公式リソース を活用し、今すぐ Imagen 4 で新しい画像生成の世界を体験

Hackerたちの意見

黄色っぽいチャットGPTの出力より、ずっと良く見えるね。

手動でホワイトバランスを調整して色味を取り除いたら、GPT-Image-1(ChatGPTで使われてるモデル)の方が良いと思った。

「ドキュメントを読む」をクリックしても、最新のImagenモデルについて何も書いてないページに飛ぶだけで、Gemini 2.0 Flashの例しか載ってない。

クラシックなGoogleだね。

「四コマ漫画」にちょっとしたミスがあるのが、なんか素直でいい感じだね(キャプションの誤解 + ボーナスの五コマ目で猫が自分とハイタッチしてる)。

それについて考えてたところだよ。めちゃくちゃエラーが多い。1. ”ai.dev”をブラウジングしてない。2. 「Imagen 4は一般提供中です!」っていうテキストは、漫画のキャプションじゃなくて、セリフだし。3. 二コマ目が無効。4. 「Meet Imagen 4 fast!」っていうのは幻覚。5. 「It offers low..」とかも幻覚(これは猫が言ってる一文の二部)。6. 「You can export images in 2K!」っていうのも幻覚(この文は求められてない)。7. 四コマ目に猫と犬がいない。— ここに見つけた問題点をまとめたgpt-image-1の対比があるよ: https://chatgpt.com/share/689f7e4b-01e4-8011-8997-0f37edf8c2... 1. 「Imagen 4は一般提供中です!」っていうテキストはまだセリフで、キャプションじゃない。2. 「low latency」→「low-laten」(3. あの醜いgpt-image-1の黄色フィルターがあって、ポストで修正しないといけない)。 「レトロ漫画風」っていうのは持ち出さなかったけど、Imagen 4のバージョンには問題があると思う。全然古いスタイルには見えない。でも、OpenAIのやつについてもそれを判断できないし、漫画の専門家じゃないから、その点はスキップした。

「四コマ漫画」で与えられた明確な指示を完全に無視してるのがすごい。

ポスターも同じだね。船が右に向かうように頼んでるのに、明らかに逆の方向に進んでる。

Imagen 4 Ultra: あなたのクリエイティブなビジョンが最高レベルの詳細と厳密なプロンプトの遵守を求めるとき、Imagen 4 Ultraは非常に整った結果を提供します。厳密なプロンプトの遵守が必要なら、「Ultra」バージョンが必要かもしれません。これは面白い戦略ですね。個人的には、実際には画像生成に厳密なプロンプトの遵守が必要ないことが多いと感じます。見た目が良ければそれでOK、良くなければ再生成をクリックするだけです。クリエイティブなタスクでは、プロンプトに厳密すぎると、ユーザーが望む結果にならないかもしれません。

でも、それはImagen 4 Fastだけで、Imagen 4やImagen 4 Ultraではなかった。

AI画像生成でちょっと実験してみたけど、結局は何度も試してみて、やっとちゃんと見えるものができるって感じだね。どれくらいの試行回数を重ねたんだろう。

そうだよね?これを見たくてコメント欄に来たのに、みんなの反応に困惑してる。こんなにプロンプトの遵守が悪いなら、払った2セントの価値あるの?ウルトラ版を使うかどうか決めるのにも全然役に立たない気がするし… Photoshopでやり直したいならまだしも、その場合、古いWacomタブレットを引っ張り出して合成画像を作る方が時間かかるけど、画質はずっと良いし(AI生成の特徴も出ないし)。

とりあえず、Midjourneyよりはマシだといいな。プロンプトの重要な部分を無視するのが特徴みたいだね。

映画ポスターのキャプションにあるアポストロフィが抜けてるのを指摘しようと思ったけど、プロンプトにも抜けてるね。

Muphryの法則がまた発動したね。

基本的にコパイロットに同じこと聞いたら、ずっと良い結果が出たよ(笑) https://i.imgur.com/kSuqCYg.jpeg

Imagenがこの黄色い色味の影響を受けないのは面白いね。

Imagenには隠れたプリプロンプトやシステムプロンプトがあって、最適な結果に干渉してるのかなって思っちゃう。

Imageinは一般的な編集ツールとして結構使えるよ。ビットマップを整理したり、黒点や白点、グレースケールのカーブを調整するのに使ってる。レーザープリンターのハーフトーンスクリーンでのドットゲインを補うために、白黒のグレースケール写真を印刷する準備にはいい感じ。けど、その「色分離」機能は初歩的で、CMYKじゃなくて逆RGBに近いのがちょっと残念。色分離がちゃんとできるのはPhotoshopだから、アンダーカラーの除去もコントロールできるしね。

これってGoogleの製品のこと?それとも全然別のツールのこと?

いくつかプロンプトを試したけど、前のバージョンよりはマシだと思う。ただ、Googleはスピードのために品質を犠牲にしてる気がする。確かに速いけど、出力はOpenAIには及ばない。逆にVeo3はOpenAIの同等品よりずっと良いね。そこではスピードが優先されてないと思うし、どちらも時間をかけてる感じ。

次のプロンプトを試したけど、白黒の四コマ漫画はできたけど、他の指示は完全に無視された。これは4 Ultraでの結果。誰か他の人はうまくいくかもしれないけど、失敗は安定してたみたい。''' 四コマ漫画。シンプルな白地に黒。キャラクターは棒人間。最初のコマには、棒人間の男とその足元で鳥の餌を食べている棒人間の鳥がいる。男は鳥を見ているのを示すために少し前かがみになってる。二コマ目では、さらに前かがみになって鳥をじっくり見てる。三コマ目では、さらに前かがみになって、ほぼ鳥に頭を寄せている。しゃがんで膝を曲げて、手は太ももに置いてる。三コマ目の左上には巨大なくちばしの先端が見えるけど、ほんの数本の線だから何でもありそう。最後のコマでは、くちばしが男を飲み込んで、彼の腕と足がくちばしの外でバタバタしてる間、小さな鳥は地面で鳥の餌を食べ続けている。'''

GenAI比較サイトを更新して、Imagen4 Ultraを追加したから、今はGoogle関連の生成モデルが4つになったよ(Gemini Flash、Imagen3、Imagen4、Imagen4 Ultra)。Ultraが厳密なプロンプトの遵守を改善してるって言われてるけど、Imagen 4よりも良い結果が出た証拠は見られなかったし、場合によってはプロンプトを完全に無視してるように見えた(「Not the Bees」漫画を見てみて)。多くの場合、Imagen3よりも操作性が低くて、プロンプトを何度も書き直さなきゃいけなかった。 https://genai-showdown.specr.net?models=IMAGEN_3,IMAGEN_4,IM...

OpenAIの画像生成はまだ最先端って感じ?