概要
- 画像生成分野の進化と現状の課題を解説
- Krea 2モデルの目的と設計思想を紹介
- 独自の大規模データインフラと多段階学習パイプラインを強調
- テキスト・画像両方からの探索性と制御性向上策を説明
- データ選定・キャプション生成・品質管理の詳細手法を解説
画像生成分野の進化とKrea 2の登場
- 近年、 Diffusion や Flow-matching モデルの登場で高解像度・高精細な画像生成が可能に
- Transformerアーキテクチャ の拡張や テキストエンコーダ の改良、 パイプライン化された後処理技術 が進化の要因
- 主流システムは安定した品質を追求するあまり、 画一的な美的傾向 へと収束
- 創造的探索には、 多様なスタイル・雰囲気・構図 の横断が必要
- この課題解決のため、 Krea 2 は「探索可能な表現力」と「制御性」に特化した基盤モデルを開発
Krea 2の設計思想と技術概要
- 画像生成=創造的な探索媒体 という信念のもと、幅広い美学と制御性を実現
- 独自構築の 大規模データインフラ と 分散学習フレームワーク で、世界知識と多様なスタイルを網羅した事前学習データセットを作成
- 事前学習 → 中間学習 → SFT(教師あり微調整) → 嗜好最適化 → 強化学習(RL) という多段階パイプラインでモデルの出力分布を段階的に洗練
- Diffusion Transformer(DiT) アーキテクチャを徹底的なアブレーションで開発
- 収束加速のための iREPA、 改良VAE、 Qwen3-VL 導入
- Grouped-Query Attention(GQA)、 Sigmoid-Gated Attention、 軽量タイムステップ変調、 多層特徴集約 などのアーキテクチャ改良で安定性・効率性向上
ユーザー制御性向上の仕組み
- 学習時は 詳細なキャプション から豊かな視覚情報を学習
- 実際のユーザー入力は 短文・曖昧 ・表現の癖が多様
- Prompt Expander :簡素なプロンプトを意図を損なわずに多様な視覚表現へ拡張
- 2段階SFT+RL で創造的多様性と制御性を両立
- Style-Reference System :言葉で表現しきれない場合、 参照画像 からスタイルや雰囲気を注入
- スタイル強度やミックス比率 も細かく調整可能
- これらの機能により、 テキスト・画像の両面から探索的生成 を実現
Krea 2の性能・位置付け
- Artificial Analysisリーダーボード のtext-to-image部門で トップ10入り
- 独立系ラボモデル中2位 の評価
- 競争力ある性能 を維持しつつ、 創造的生成体験 と 包括的なベースライン を提供
データ選定とキュレーション方針
- 目的に適合した「良いデータミックス」は 高品質画像だけでなく、多様性と広いドメインカバレッジ が不可欠
- 従来の美的スコアやIQAによる機械的フィルタリング は、芸術的意図を損なうバイアスの温床
- キャプションが画像を正確に記述していれば、望ましくない画像も学習上有用
- 重複・過剰代表コンセプト・重要要素を捉えられない画像・バイアス誘発画像・複雑すぎる画像・AI生成画像 のみを除外
- AI生成画像 はごく少量でもモデル出力にバイアスを与えるため、 独自分類器 で徹底排除
キャプション生成とプロンプト多様性
- OCRモデル で画像内テキスト抽出→ メタデータ と合わせてキャプション生成
- 長文・多様な形式 のキャプションを生成し、 多様なプロンプトスタイル でモデルを訓練
- 長文プロンプト で密な監督信号を与え、 収束高速化と損失低減 を実現
- 短文・中間長プロンプト も訓練中に適度に露出させ、実用性を担保
事前学習データと品質管理
- 256px/512px/1024px の解像度段階でデータ拡張
- 低解像度段階 で基本的なテキスト画像整合性・構造を学習
- CPUベースの高速フィルタリング (壊れファイル・解像度・アスペクト比・ラプラシアンフィルタなど)
- RGBエントロピー や 独自ヒューリスティック でアーティファクト誘発画像を除去
- 大規模VLM+DINOv3/SigLIP-2小型分類器 によるタスク特化型フィルタで効率化
- md5/phash/colorhash を組み合わせた重複除去
- 高解像度段階 でのみ、 品質・美的スコア を使い極端な低品質画像のみ除外
- スパースオートエンコーダ(SAE)+VLMアノテーション でアノマリ検出・タグ付け
中間学習データとクラスタリング
- 中間学習 では特定ドメインや高品質ソースを明示的に選定
- FAISSによる階層的k-meansクラスタリング でロングテール概念も網羅
- VLMによるクラスタ命名・フラグ付け+人間のレビュー で問題クラスタを除去
- SigLIP類似度 によるセマンティック重複除去
- エンティティ表現力強化 のため、 Wikipedia PageRank+Wikidataメタデータ で主要概念を抽出・カバレッジ評価
このように、Krea 2は 創造的探索性・制御性・多様性 を追求し、 データ選定・モデル設計・ユーザー体験 の各側面で徹底した工夫を凝らした画像生成基盤モデルです。