概要
- Krea 1 はBlack Forest Labsと共同開発した、 美的コントロールと高画質 を重視した画像生成モデル
- FLUX.1-Krea [dev] は、Krea 1の品質と美的感覚を維持しつつFLUXエコシステムと完全互換
- 「AIらしさ」 (AI look)を排除した自然な画像生成を目指す
- 学習工程 は「多様性重視の事前学習」と「美的偏りを与える事後学習」の2段階
- 今後も 直感的な製品開発 と美的評価の研究を継続
Krea 1: 美的コントロールと高画質を実現する新しい画像生成モデル
- Krea 1 はBlack Forest Labsと共同開発した、 美的コントロール と 画像品質 に特化した画像生成モデル
- FLUX.1-dev と完全互換で、既存のFLUXエコシステムへのシームレスな組み込みが可能
- FLUX.1-Krea [dev] は、Krea 1の品質と美的感覚を維持するように設計
- 他の多くの画像生成モデルと異なり、 明確な美的指向 を持つ設計思想
- 独自の美的好みに最適化したモデル構築を目指した開発方針
「AIらしさ」の課題とモデル開発の動機
- 近年の画像生成AIは、 人間の顔や手足、複雑な構図や文字 も生成可能
- しかし「 AI look」(過度にぼやけた背景、ワックスのような肌、単調な構図等)が頻出
- 技術的な指標やベンチマーク最適化が進む一方で、 本来の多様性や創造性 が後退
- DALLE-2 のような初期モデルは不完全だが、面白い出力も多かった
- 開発目標は「 AIらしくない画像」の実現
既存ベンチマークと美的評価の限界
- 事前学習では FID や CLIP Score 等でモデルの一般性能を評価
- 事後学習後は DPG や GenEval、 T2I-Compbench 等でプロンプト遵守性を評価
- 美的評価には LAION-Aesthetics や Pickscore 等が使われるが、 低解像度・バイアス・表現力不足 が問題
- 現行の美的スコアは 個人の美的感覚 を十分に反映できない
- 人間の好みや美的価値観 は数値化困難であり、データ選定と出力調整の工夫が必須
事前学習と事後学習の役割分担
- 事前学習 は「 多様性の確保」と「 世界理解」が目的
- 様々なスタイルやオブジェクトを学習し、 多様な出力分布 を持つ基礎を形成
- 「悪い画像」も学習し、 ネガティブプロンプト による制御性を高める
- 事後学習 は「 美的偏りの付与」が目的
- 事前学習モデルの多様性を活かしつつ、 好ましい分布へ強くバイアス をかける
- 「焼きが浅い」未調整モデル(flux-dev-raw)をベースに採用
事後学習パイプラインの詳細
- Supervised Finetuning(SFT) と Reinforcement Learning from Human Feedback(RLHF) の2段階構成
- SFTでは 高品質な画像データセット を手作業でキュレーション
- Krea-1由来の合成画像も活用し、安定性向上
- カスタム損失関数 でガイダンス付き分布に直接微調整
- RLHFでは TPO(Preference Optimization) を適用し、美的・スタイル面を強化
- 内部で厳選した 高品質な人間の好みデータ を用いて複数回最適化
- 出力の微調整と美的方向性の向上
- SFTでは 高品質な画像データセット を手作業でキュレーション
主要な発見と学び
- 質重視 :100万件以下の小規模高品質データでも十分な事後学習が可能
- データの質が最重要であり、量は安定性やバイアス緩和に寄与
- アノテーターは現状モデルの弱点や改善点を深く理解した上でラベリング
- 美的指向の明確化 :既存のオープンソース好みデータセットは 単調化やAI lookへの回帰 の原因
- 「グローバルな好み」よりも 明確な美的指向 でモデルをオーバーフィットさせる方が効果的
- テキストレンダリングや構造など客観的な目的には多様なデータが有効だが、美的目標には 一貫したアートディレクション が重要
- LoRAや細かいプロンプト調整なしでも デフォルトで美的な出力 を目指す
今後の研究・開発の方向性
- 直感的な製品開発 と 美的評価手法の進化 に注力
- 人間の美的好み をより柔軟かつパーソナルに反映できるモデル構築
- グローバルな評価指標と個別の美的価値観 の両立を目指す研究推進