世界を動かす技術を、日本語で。

ナノバナナの画像例

概要

PicoTrexAwesome-Nano-Banana-images に関する基本情報をまとめた内容。 リポジトリの 公開状態通知設定 について説明。 フォーク数スター数 の現状。 GitHubでの 操作要件 の注意点。 主なリポジトリの特徴を簡潔に記載。

PicoTrex / Awesome-Nano-Banana-images の基本情報

  • PicoTrex / Awesome-Nano-Banana-images は、 GitHub 上で公開されているリポジトリ
  • 通知設定 の変更には、 サインイン が必要
  • 現在の フォーク数:602スター数:5.8k
  • Public リポジトリであり、誰でも閲覧可能
  • 主に NanoBanana 系デバイス向けの イメージ集 を提供

Hackerたちの意見

すごいモデルだね。唯一の限界は君の想像力で、画像1枚あたりたったの0.04ドルだよ。ページには書いてないけど、これはGoogleのGemini画像生成モデルだよ。いい例がたくさんあるね。でも、2つ目の例に不適切なものを選ぶのはちょっと変だな。

[読み間違えた]

もっと具体的に言うと、Nano Bananaは画像編集用に調整されてるよ:https://gemini.google/overview/image-generation

これは単一のモデルなの?それともモデルのパイプラインなの?

最近、Nano Bananaを使って簡単に画像を生成できるPythonパッケージをリリースしたよ。テストを通じて、一つのプロンプトエンジニアリングのトレンドが一貫していたけど、ちょっと物議を醸していたんだ。a) LLMスタイルのプロンプトエンジニアリングでMarkdown形式のリストを使うことと、b) 昔ながらのAI画像スタイルの質的な飾り言葉、例えば受賞歴のあるものやDSLRカメラのようなものが、Gemini 2.5 Flash Imageに対して非常に効果的なんだ。これはテキストエンコーダーと大きなトレーニングデータセットのおかげで、受賞歴のある画像にどんな特性があるか、どんな特性がないかをより正確に識別できるから。これらのトリックを使った生成と使わない生成を試してみたけど、トリックは確実に影響があるよ。Googleの開発者ドキュメントも後者を推奨してる。ただ、32kのコンテキストウィンドウを活用することで面白いことができるよ(他のモデルが512に対して)。HTMLを画像としてレンダリングすることもできるし、高度にニュアンスのあるJSONを提供することで、一貫した生成が可能になるよ。

Nano-Bananaは驚くべき結果を出すことができるよ。最先端の画像モデルの比較サイトを運営していて、さまざまなテキストから画像へのプロンプトに対する遵守に非常に重点を置いているんだ。最近、編集比較ショーダウンの対抗版を作ったところで、こちらも遵守が焦点だけど、純粋なテキストプロンプトを使って既存の画像をローカライズして編集する能力をテストしているんだ。現在、Nano-BananaやKontext Max、Qwen 20bなど6つのマルチモーダルモデルを比較中だよ。Gemini Flash 2.5は12点中7点でリードしてるけど、Kontextは12点中5点で、ローカルでDevモデルを動かせることを考えると特に驚きだね。

すごいベンチマークだね!

gpt-image-1を追加してみて。厳密には編集モデルじゃないけど、グローバルなピクセルを変えるから、複雑なプロンプトや画像リファレンスにはNano Bananaよりも教えられることが多いと思う。

人間の心の目や視覚的想像力を使って何かを思い描く特別な能力があると信じていたことに気づいたよ。例えば、違う髪型で自分がどう見えるかを想像することね。そのスキルが機械によって自分の想像力と同じレベル、あるいはそれ以上に再現されるのを見るのは不快だよ。自分の想像力を使う能力が、コートフックのようにコートを持ち上げる能力と同じくらい特別じゃないように感じるんだ。

公平に言うと、そのモデルの能力は私たちがトレーニングデータを生成したからなんだ。

自分はアファンタジアだから、今はみんなが同じスタートラインに立ってるのが嬉しいよ。

あなたの世界に対するメンタルモデルは完全に間違ってたみたいだね。シェアしてくれてありがとう。でも、他の人に自分がどれだけバカだったかを常に伝える必要があるのが理解できないよ。わかってるよ、君はバカなんだ。

これは何百万もの人間の作品で訓練されているからこそできることなんだよね。

動物界ではビジョンが頻繁に、そして迅速に進化してきたけど、意識的な知性はそうじゃないよね。別の観点から言うと、光学の数学的な説明や、描画アルゴリズム、固定機能パイプライン、レイトレーシングなど、描画やアニメーションに関する豊富な数学があるのに、賢い思考する機械については全く分からない。生成画像の進歩は>> LLMs。

でも、思い描いたものに喜びを見出したり、笑ったり、驚いたりできるよね。精神的な能力は確かに素晴らしいけど、それをする理由があって、結果に何かを感じるのが特別なんだ。「砂の一粒に世界を見、野花に天国を見出す…」私たち人間には存在する理由がある。夕日を見て、光の散乱や異なる周波数がどう色を作るかを考えることもできるし、その美しさを楽しむこともできる。私にとっては、時間をかけてそうさせると、どんな瞬間も魔法のようになる。そもそも、あなたに反応する私がいることや、Hacker Newsがここにあるために起こったことは、本当に信じられないことだよ。私にとってはね。

それは深いね。

こういうことを頭の中でイメージできない私からすると、あなたの想像力は特別だよ。人がそんなことできるって聞いたとき、まるで超能力みたいに感じた。AIはバットマンみたいなもので、お金や道具がなければ役に立たない。あなたの能力はスーパーマンみたいで、あなたの一部で、いつでも使える状態にあるんだ。

マジで?誰でも写真の上に髪型を切り貼り(コンピュータ用語じゃないけど)できるじゃん。今、世界中の人間の集大成を使ってモデルをトレーニングしている人を見て、すごいなって思ってるんだね… それで、一人の人間がそのモデルと競争するって。インターネット上の人間の出力がなければ、これらは実現できなかったよ。ImageNetなんて、これに比べたら小さいもんだ。でも、君が言う「想像力」って、結局は頭の中にあるモデルを使って、学んだ制約(重力とか)をかけながらの探索や変化なんだよね。今はインターネットにあるから、リミックスできるのは明らかだ。ただ、そんなに計算した後でも、モデルは任意の時間を示す時計や、満杯のワイングラスを描くのに苦労してるみたい。

機械が新しいアートスタイルを開発できるかどうかが、結局のところ重要なんだよね。例えば、漫画やアニメのアートスタイルは数十年で進化してきた。もし人間がその進化を止めたら(多分止めないだろうけど)、機械はそれを続けられるのかな?原則的にはできると思う(私たちも一種の生物的な機械だから)、でも今のAIアーキテクチャでは難しいかもね。

個人的には、このモデルにはあまり感動してないな。なんか例が選りすぐりな気がする。俺が経験した失敗例を挙げると:- 直射日光の下で影がひどい顔写真を与えたら、影を消せなかった - 古い白黒写真を渡したら、現代のDSLRカメラで撮ったみたいな鮮やかな色にはならなかった。色は付けるけど、色あせた感じの色合いだけ - 髪型の3x3グリッドを再現しようとしたら、何度も2x3グリッドができちゃった。やっと3x3グリッドができたけど、9つのモデルのうち1つが白人じゃなくて黒人だった - 本物の画像を作り物のイメージに統合するのができない。例えば、チュチュの画像を与えて、チュチュを着たイルカが雲の上を飛んでいる画像を作ってって頼んだら、結果は粗いフォトショップの切り貼りみたいになった。

なんか例が選りすぐりな気がする 俺は、デモや画像、映画、プロジェクトなど、見せびらかしの部分が選りすぐりじゃないものを知らない。

でも、これらの例も完璧じゃないよね。「異なる時代の自分の写真」ってやつは「キャラクターの顔を変えないで」って言ってたのに、顔が完全に変わっちゃってたし。「ケース21: OOTDアウトフィット」は間違ったカメラを使ってた。「バーチャルメイクアップ試着」はメイクがめちゃくちゃだったし。「ライティングコントロール」は照明がめちゃくちゃで、ジョーカーのミニフィグはただのSH0133だし(https://www.bricklink.com/catalogItemInv.asp?M=sh0133)。「チェスセットをデザイン」ってやつは入力画像はいらないって言ってたけど、プロンプトには含まれていない写真を基にするように書かれてて、出力はかなり疑問だし(あのポーンは何なんだよ!)、などなど。まあ、それでも結構面白いし、フォトショップにアクセスできない人や、プロジェクトを手で仕上げるために始める人には役立つかも。

これまでで、どうやって人々が良い結果を得ているのか本当に理解できない。https://aistudio.google.com でNano Bananaを選択して(gemini-2.5-flash-image-preview)も、俺はゴミみたいな結果しか得られない。キャラクターの参考写真とシーンをアップロードして、ジェミニにキャラクターをシーンに配置してって頼むんだけど、やることと言ったら、スタイルや色が全然違うのにキャラクターをシーンに切り貼りするだけ。例えば、ChatGPTを使った方がずっといい結果が出る。もちろん、キャラクターは参考写真とはほとんど似てないけど、2分でペイントで描くよりはマシだ。俺、なんか間違ったモデルを使ってるのかな?

+1 結果が非決定的なのはわかるけど、俺も絶対ゴミみたいな結果が出る。32歳の妻の写真をアップロードして、彼女に前髪を作ってどう見えるか試したかったんだけど、「安全のために」って拒否されたり、応じた時の結果はひどくて、全然別の人になっちゃった。何日も試行錯誤して、やっと前髪を作らせたけど、前髪を調整する方法がなくて、モデルは毎回同じ写真を返してきた(その間に「コンテンツがブロックされました」ってのがたくさんあった)。

プロンプトをいじってみて、Gemini 2.5 Proにプロンプトを改善してもらってからGemini 2.5 Flashに送ってみて、何がうまくいくか学んでみて。

うん、私も同じことに気づいた。Nano Bananaがうまくいくときは本当にうまくいくけど、90%の時間は結果が変だったり、質が悪かったりして、切り貼りやペイントオーバーみたいに見えるし、「安全性」の理由で合理的なリクエストを拒否することも多い。(私の経験では、実在の人が関わるものはほとんどそう。)私は感心するよりも、むしろイライラしてる。

私の経験では、Nano Bananaは大丈夫だと思ったら、積極的にコピー&ペーストするよ。キャラクターがシーンに自然に溶け込むように明示的に指示する必要がある。言い換えれば、モデルは適切にプロンプトを与えれば素晴らしいけど、プロンプトを考えるのが時々面倒くさいこともあるね。

残念ながら、一部はNSFWだね。アメリカのほとんどのテック職場でこのURLを広めるのは無神経かもしれない。そういう場所では、孤立した例を選んだ方がいいかも。(例: ケース1の半分は、アニメ/マンガのメイド服を着た女性がスカートの前を持ち上げて、後ろに傾いて下着の股間を見せている。これは私が気づいた中で一番疑問のあるものだよ。これはトップのURLを訪れた人が最初に見るものの一つだし。)

若い女性が性的に描かれている例を見ると、誰か他にも気まずくなる人いる?ほんとに、Case 1/Bにはスカートをめくって下着を見せている女性がいるよ。すごく印象的なモデルなのに、こんな幼稚なコンテンツでPRを台無しにしてる。ああ、これで確信した:私は古い不機嫌なおじさんだ!若い女性の例が26個、男性の例が9個。唯一足りなかったのは「レナ」だね。

私の最初の反応も同じだったよ、これらのデモが何を表しているかも知らないうちにね。もちろん、私も不機嫌なおじさんだよ。

それで、AI画像生成の最も一般的な用途は何になると思う?

同じく。同僚とシェアしようとしたら、最初に思ったのは、もっとマシな例を探すことだった。でも見つからなくて、次に思ったのは内容について謝ることだった。こんなの謝らなきゃいけないなんて、バカみたいだよね。

セックスがテクノロジーを推進してるんだよね(好きじゃなくても)。VHS、オンライン決済、動画ストリーミング… 昔の歌にもあるけど、「インターネットはエロだ」ってね。

先史時代の彫刻家が何を彫ってたか知ったら驚くよ。あなたのコメントを見てからサイトをチェックしたら、ケース1が子供で、その後にセクシーなメイドが出てきて、「ああ、神様…」って思ったけど、実際には一つの画像に合成されてるわけじゃなかったんだよね。

すごい例だけど、GenAIは結局、たくさんの失敗の後に最高の結果を選び出さなきゃいけないってことに尽きるよね。今は、「ExpectedOutput = LLM(Prompt, Input)」っていうストーリーを押し出している感じだけど、実際には「ExpectedOutput = LLM(Prompt, Input) * Takes」で、Takesは1から100以上まで変わるんだよ。

ナノバナナって名前は、レギュラーバナナやメガバナナの存在を示唆してるのかな?