概要
Pico-Banana-400K は、約40万件のテキスト指示付き画像編集データセット。 多様な編集操作と8つの意味カテゴリをカバー。 高品質な編集例と失敗例の両方を収録し、堅牢なモデル学習に適用可能。 Gemini-2.5-FlashとNano-Bananaモデルによる自動生成・評価パイプラインを採用。 非商用・研究目的で無償利用可能。
Pico-Banana-400K: テキスト指示付き画像編集の大規模データセット
- Pico-Banana-400K は、テキストによる画像編集研究を推進するための 約40万件 のデータセット
- 各サンプルは 元画像(Open Images由来)、 人間らしい編集指示、 編集後画像 で構成
- 編集指示はGemini-2.5-Flash が自然言語で生成、 編集はNano-Bananaモデル が実施
- 35種類の編集操作 を 8つの意味カテゴリ で網羅
- 低レベルな色調補正から、高レベルなオブジェクト・シーン・スタイル編集まで多様
主な特徴
- 約 257K件 のシングルターンSFTデータ(成功編集例)
- 約 56K件 のシングルターン失敗例(好み学習用)
- 約 72K件 のマルチターン編集データ(会話型編集対応)
- 画像解像度 は512~1024ピクセル
- 自動評価 はGemini-2.5-Proを用いた品質判定パイプライン
データセット構築プロセス
- 指示生成: Open Imagesの画像に対し、Gemini-2.5-Flashが内容に即した編集指示を自動生成
- Qwen-2.5-Instruct-7Bによる短縮指示も提供
- 編集&自己評価: Nano-Bananaが編集を実行し、下記4項目で自動評価
- 指示遵守(40%)
- 編集のリアリズム(25%)
- 元画像の保持バランス(20%)
- 技術的品質(15%)
- 評価スコア0.7以上 のみを主データセットに採用、失敗例はロバスト性向上や好み学習用途に保存
カテゴリ分布
- オブジェクト編集 (追加・削除・置換・移動):35%
- シーン構成・複数主体 :20%
- 人物中心編集 (服装・表情など):18%
- スタイル変換 :10%
- テキスト・記号編集 :8%
- ピクセル・光度調整 :5%
- スケール・視点変化 :2%
- 空間・レイアウト編集 :2%
データ構成
- シングルターンSFT(成功):約257K件
- シングルターン好み学習用(失敗):約56K件
- マルチターンSFT(成功):約72K件
- 編集指示は自然かつ画像内容に即したもの
- Open Images由来の多様な画像 (人物・物体・テキスト含む)
代表的な編集指示例
- オブジェクト編集 :「赤いリンゴを緑に置き換える」
- シーン構成 :「窓から差し込む日差しを追加」
- 人物中心 :「人物の表情を笑顔に変更」
- テキスト・記号 :「看板のテキストを大文字に」
- スタイル :「Van Gogh風の絵画スタイルに変換」
応用分野
- テキスト指示に基づく画像編集モデルの訓練・評価
- 会話型・マルチターン編集 や 報酬学習 にも活用可能
Pico-Banana-400K ダウンロードガイド
- AppleのパブリックCDN でデータ提供
- 各種manifestファイル (sft link, preference link, multi-turn link)で編集画像を取得
- 元画像 はOpen Imagesから別途ダウンロード必要
- Flickrのレート制限 に注意、またはOpen Imagesのtarファイル(train_0/1.tar.gz)を利用
- 画像IDとURLのマッピング用CSV や サンプルコード も提供
Open Images元画像の取得手順
- awscliインストール後、以下コマンドで取得
aws s3 --no-sign-request --endpoint-url https://s3.amazonaws.com cp s3://open-images-dataset/tar/train_0.tar.gz .aws s3 --no-sign-request --endpoint-url https://s3.amazonaws.com cp s3://open-images-dataset/tar/train_1.tar.gz .
- tarファイルを展開し、CSVでID-URLマッピング
- 必要に応じて マッピング用Pythonコード を修正して利用
ライセンスと利用条件
- CC BY-NC-ND 4.0ライセンス (研究・非商用利用に限り無料)
- 商用利用・派生物再配布は禁止
- 元画像はOpen Images (CC BY 2.0)ライセンス に準拠
- 利用時は両ライセンスの遵守が必須
論文引用情報
- 論文利用時は以下の形式で 引用
@inproceedings{Qian2025PicoBanana400KAL, title={Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing}, author={Yusu Qian and Eli Bocek-Rivele and Liangchen Song and Jialing Tong and Yinfei Yang and Jiasen Lu and Wenze Hu and Zhe Gan}, year={2025}, url={https://api.semanticscholar.org/CorpusID:282272484} }