世界を動かす技術を、日本語で。

ピコバナナ400k

概要

Pico-Banana-400K は、約40万件のテキスト指示付き画像編集データセット。 多様な編集操作と8つの意味カテゴリをカバー。 高品質な編集例と失敗例の両方を収録し、堅牢なモデル学習に適用可能。 Gemini-2.5-FlashとNano-Bananaモデルによる自動生成・評価パイプラインを採用。 非商用・研究目的で無償利用可能。

Pico-Banana-400K: テキスト指示付き画像編集の大規模データセット

  • Pico-Banana-400K は、テキストによる画像編集研究を推進するための 約40万件 のデータセット
  • 各サンプルは 元画像(Open Images由来)人間らしい編集指示編集後画像 で構成
  • 編集指示はGemini-2.5-Flash が自然言語で生成、 編集はNano-Bananaモデル が実施
  • 35種類の編集操作8つの意味カテゴリ で網羅
    • 低レベルな色調補正から、高レベルなオブジェクト・シーン・スタイル編集まで多様

主な特徴

  • 257K件 のシングルターンSFTデータ(成功編集例)
  • 56K件 のシングルターン失敗例(好み学習用)
  • 72K件 のマルチターン編集データ(会話型編集対応)
  • 画像解像度 は512~1024ピクセル
  • 自動評価 はGemini-2.5-Proを用いた品質判定パイプライン

データセット構築プロセス

  • 指示生成: Open Imagesの画像に対し、Gemini-2.5-Flashが内容に即した編集指示を自動生成
    • Qwen-2.5-Instruct-7Bによる短縮指示も提供
  • 編集&自己評価: Nano-Bananaが編集を実行し、下記4項目で自動評価
    • 指示遵守(40%)
    • 編集のリアリズム(25%)
    • 元画像の保持バランス(20%)
    • 技術的品質(15%)
  • 評価スコア0.7以上 のみを主データセットに採用、失敗例はロバスト性向上や好み学習用途に保存

カテゴリ分布

  • オブジェクト編集 (追加・削除・置換・移動):35%
  • シーン構成・複数主体 :20%
  • 人物中心編集 (服装・表情など):18%
  • スタイル変換 :10%
  • テキスト・記号編集 :8%
  • ピクセル・光度調整 :5%
  • スケール・視点変化 :2%
  • 空間・レイアウト編集 :2%

データ構成

  • シングルターンSFT(成功):約257K件
  • シングルターン好み学習用(失敗):約56K件
  • マルチターンSFT(成功):約72K件
  • 編集指示は自然かつ画像内容に即したもの
  • Open Images由来の多様な画像 (人物・物体・テキスト含む)

代表的な編集指示例

  • オブジェクト編集 :「赤いリンゴを緑に置き換える」
  • シーン構成 :「窓から差し込む日差しを追加」
  • 人物中心 :「人物の表情を笑顔に変更」
  • テキスト・記号 :「看板のテキストを大文字に」
  • スタイル :「Van Gogh風の絵画スタイルに変換」

応用分野

  • テキスト指示に基づく画像編集モデルの訓練・評価
  • 会話型・マルチターン編集報酬学習 にも活用可能

Pico-Banana-400K ダウンロードガイド

  • AppleのパブリックCDN でデータ提供
  • 各種manifestファイル (sft link, preference link, multi-turn link)で編集画像を取得
  • 元画像 はOpen Imagesから別途ダウンロード必要
    • Flickrのレート制限 に注意、またはOpen Imagesのtarファイル(train_0/1.tar.gz)を利用
    • 画像IDとURLのマッピング用CSVサンプルコード も提供

Open Images元画像の取得手順

  • awscliインストール後、以下コマンドで取得
    • aws s3 --no-sign-request --endpoint-url https://s3.amazonaws.com cp s3://open-images-dataset/tar/train_0.tar.gz .
    • aws s3 --no-sign-request --endpoint-url https://s3.amazonaws.com cp s3://open-images-dataset/tar/train_1.tar.gz .
  • tarファイルを展開し、CSVでID-URLマッピング
  • 必要に応じて マッピング用Pythonコード を修正して利用

ライセンスと利用条件

  • CC BY-NC-ND 4.0ライセンス (研究・非商用利用に限り無料)
  • 商用利用・派生物再配布は禁止
  • 元画像はOpen Images (CC BY 2.0)ライセンス に準拠
  • 利用時は両ライセンスの遵守が必須

論文引用情報

  • 論文利用時は以下の形式で 引用
    @inproceedings{Qian2025PicoBanana400KAL,
      title={Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing},
      author={Yusu Qian and Eli Bocek-Rivele and Liangchen Song and Jialing Tong and Yinfei Yang and Jiasen Lu and Wenze Hu and Zhe Gan},
      year={2025},
      url={https://api.semanticscholar.org/CorpusID:282272484}
    }
    

Hackerたちの意見

論文からの引用 > パイプライン(下)は、Nano-Bananaを使って多様なOpenImagesの入力がどのように編集され、Gemini-2.5-Proによって品質フィルタリングされるかを示している。失敗した試行は自動的に再試行される。面白いね。テキストから画像への生成AIや編集のためのかなり包括的な画像比較サイトを運営してるんだけど、手動で管理するのが結構疲れるから、少し前にスタートプロンプト、GenAIモデルのリスト、最大再試行回数を指定して似たようなことをする小さなプログラムを作ったんだ。別のマルチモーダルAIを使って画像を生成・評価し、失敗したプロンプトを自動的に書き直して設定した回数まで繰り返す。完璧ではないけど(特に九角星の例がそう)、マルチモーダルモデルの「認識能力」は生成能力より優れていることが多いから、希望する結果が得られるまでREPLのように使えるよ。 https://genai-showdown.specr.net/image-editing

あなたのサイト大好き!月に一度は見つけるみたい。似たようなサイトもあるけど、確かにあなたのところだと思う。

評価には何を使ってるの?gemini-2.5-proはMMLUのトップにいて、私には一番良かったけど、もっと良いものを探してる。

本当にクールだね。AppleがすぐにオンデバイスAIの分野をリードすることを期待してるよ…

正直、ここでのポイントがよくわからないんだけど、要するに彼らが蒸留や他の研究に使えるデータセットの推論コストを支払ったってこと?

基本的にはそうだね、別のモデルをトレーニングしたり微調整するのに役立つデータセットだよ。サイトからの引用 > Pico-Banana-400Kは、制御可能で指示に応じた画像編集を進めるための多用途なリソースとして機能する。単一ステップの編集を超えて、このデータセットはマルチターンの会話型編集や報酬ベースのトレーニングパラダイムを可能にする。

まさか?Appleがついに仲間入りしたの?Googleのオープンデータセットを使ってるのは皮肉だね…それにGoogleのプロンプト用のGeminiも。Appleから何かが出てくるのは嬉しいけど、これって私のローカルのComfyUIワークフローの一つみたいに低テクに見える。

彼らはGoogleのデータセットを使ってNano Bananaを抽出してるから、誰でも自分のシステムを簡単に作ってテストできるようになってる。これがこんなに簡単にできるのはちょっと面白いよね。「車を盗むことはないけど」、誰でも高価で完全に訓練されたモデルを抽出して自分のものを作れるんだ。これが画像モデルの中で最も重要なカテゴリの一つになるだろうね。Googleや中国(ByteDanceなど)以外にも、優れた編集モデルが増えてるのはいいことだ。Flux Kontextは遅れをとってると思う。オープンソースでNano Banana級のモデルがあれば本当にいいのに。

ライセンスはCC BY-NC-NDだね。NC-ND部分を考えると、誰が使えるのかわからないな…特に商業利用と派生作品がどこまでに該当するかの不確実性があるから。一方で、このデータセットの大部分がAIの出力だから、その著作権性はオープンな問題だね。

データセットはGemini nano-bananaから抽出されたみたいだね。めっちゃ役立つけど、これらの画像編集モデルの元データセットがどうやって作られたのかめっちゃ気になる。多くはシーンをプログラムで構築するための合成データなんじゃないかな。

Randall Munroeの関連情報 https://what-if.xkcd.com/29/

「もし、典型的な使用済み核燃料プールで泳いだらどうなる?致命的な量の放射線を体験するには潜らないといけないの?表面にどれくらい安全にいられる?」 「あなたがそこそこ泳げるなら、10時間から40時間は水面で浮いていられると思う。その時点で疲れて意識を失って溺れるだろうけど。これは、底に核燃料がないプールでも同じことが言える。」

この投稿にコメントしようとしてたんだね: https://news.ycombinator.com/item?id=45708292

まあ、なんでモデルをMicro-Penis-400kって呼んだんだろうね?