世界を動かす技術を、日本語で。

FLUX.1 Kreaのオープンウェイトを公開する

概要

  • Krea 1 はBlack Forest Labsと共同開発した、 美的コントロールと高画質 を重視した画像生成モデル
  • FLUX.1-Krea [dev] は、Krea 1の品質と美的感覚を維持しつつFLUXエコシステムと完全互換
  • 「AIらしさ」 (AI look)を排除した自然な画像生成を目指す
  • 学習工程 は「多様性重視の事前学習」と「美的偏りを与える事後学習」の2段階
  • 今後も 直感的な製品開発 と美的評価の研究を継続

Krea 1: 美的コントロールと高画質を実現する新しい画像生成モデル

  • Krea 1 はBlack Forest Labsと共同開発した、 美的コントロール画像品質 に特化した画像生成モデル
  • FLUX.1-dev と完全互換で、既存のFLUXエコシステムへのシームレスな組み込みが可能
  • FLUX.1-Krea [dev] は、Krea 1の品質と美的感覚を維持するように設計
  • 他の多くの画像生成モデルと異なり、 明確な美的指向 を持つ設計思想
  • 独自の美的好みに最適化したモデル構築を目指した開発方針

「AIらしさ」の課題とモデル開発の動機

  • 近年の画像生成AIは、 人間の顔や手足、複雑な構図や文字 も生成可能
  • しかし「 AI look」(過度にぼやけた背景、ワックスのような肌、単調な構図等)が頻出
  • 技術的な指標やベンチマーク最適化が進む一方で、 本来の多様性や創造性 が後退
  • DALLE-2 のような初期モデルは不完全だが、面白い出力も多かった
  • 開発目標は「 AIらしくない画像」の実現

既存ベンチマークと美的評価の限界

  • 事前学習では FIDCLIP Score 等でモデルの一般性能を評価
  • 事後学習後は DPGGenEvalT2I-Compbench 等でプロンプト遵守性を評価
  • 美的評価には LAION-AestheticsPickscore 等が使われるが、 低解像度・バイアス・表現力不足 が問題
  • 現行の美的スコアは 個人の美的感覚 を十分に反映できない
  • 人間の好みや美的価値観 は数値化困難であり、データ選定と出力調整の工夫が必須

事前学習と事後学習の役割分担

  • 事前学習 は「 多様性の確保」と「 世界理解」が目的
    • 様々なスタイルやオブジェクトを学習し、 多様な出力分布 を持つ基礎を形成
    • 「悪い画像」も学習し、 ネガティブプロンプト による制御性を高める
  • 事後学習 は「 美的偏りの付与」が目的
    • 事前学習モデルの多様性を活かしつつ、 好ましい分布へ強くバイアス をかける
    • 「焼きが浅い」未調整モデル(flux-dev-raw)をベースに採用

事後学習パイプラインの詳細

  • Supervised Finetuning(SFT)Reinforcement Learning from Human Feedback(RLHF) の2段階構成
    • SFTでは 高品質な画像データセット を手作業でキュレーション
      • Krea-1由来の合成画像も活用し、安定性向上
      • カスタム損失関数 でガイダンス付き分布に直接微調整
    • RLHFでは TPO(Preference Optimization) を適用し、美的・スタイル面を強化
      • 内部で厳選した 高品質な人間の好みデータ を用いて複数回最適化
      • 出力の微調整と美的方向性の向上

主要な発見と学び

  • 質重視 :100万件以下の小規模高品質データでも十分な事後学習が可能
    • データの質が最重要であり、量は安定性やバイアス緩和に寄与
    • アノテーターは現状モデルの弱点や改善点を深く理解した上でラベリング
  • 美的指向の明確化 :既存のオープンソース好みデータセットは 単調化やAI lookへの回帰 の原因
    • 「グローバルな好み」よりも 明確な美的指向 でモデルをオーバーフィットさせる方が効果的
    • テキストレンダリングや構造など客観的な目的には多様なデータが有効だが、美的目標には 一貫したアートディレクション が重要
    • LoRAや細かいプロンプト調整なしでも デフォルトで美的な出力 を目指す

今後の研究・開発の方向性

  • 直感的な製品開発美的評価手法の進化 に注力
  • 人間の美的好み をより柔軟かつパーソナルに反映できるモデル構築
  • グローバルな評価指標と個別の美的価値観 の両立を目指す研究推進

Hackerたちの意見

みんなこんにちは!Kreaの共同創業者でCTOの○○です。モデルのウェイトをリリースして、HNコミュニティと共有したいと思ってたので、すごくワクワクしてます。チームと一緒にオンラインで質問に答えられるように頑張りますので、気軽に聞いてくださいね!

こんにちは。これをありがとう。あなたの目的は何ですか?ビジネス的な観点からですか?それとも純粋に利他的なものですか?

Fluxの「Kontext」バージョン、つまり編集モデルに取り組む予定はありますか?こういったプロンプトによる画像編集のユースケースは本当に膨大だと思います。デモには驚かされましたが、オープンウェイト版の品質はまだ見ていません。それも12Bのディスティルですし。

こんにちは!Krea-1のリードリサーチャーです。FLUX.1 Kreaは、Krea-1から蒸留された12Bの整流フローモデルで、FLUXアーキテクチャに対応するように設計されています。技術的な質問があれば、どんどん聞いてくださいね :)

これをやってくれてありがとう!「FLUXアーキテクチャと互換性があるように設計されている」ってどういう意味?それが重要なのはなぜ?

モデルがすごく見えますね!この部分についてですが、> 「flux-dev-rawはガイダンスを凝縮したモデルなので、分類器なしのガイド付き分布でモデルを直接ファインチューニングするためのカスタムロスを考案しています。」具体的にどんなロスを使っているのか、そしてファインチューニングのための他のヒントがあれば詳しく教えてもらえますか?オープンソースのAIアートコミュニティが元のdistilled flux-devのファインチューニングで苦労していたのを覚えているので、すごく興味があります。

やあ、HN!Kreaの創業者の一人です。FLUX Kreaのトレーニングについてのブログ記事を用意したので、興味があればぜひ見てみてください!: https://www.krea.ai/blog/flux-krea-open-source-release

余談ですが、ウェブサイトでスクロールバーを本当に隠しましたか?なんで...? .scrollbar-hide { -ms-overflow-style: none; scrollbar-width: none; }

すごい!そのフクロウ、ほんとにフクロウっぽくて匂いがしそう。記事からは、フォトリアリズムがトレーニングの目標だったわけではなさそうだけど、それは人間の好みから自然に出てきたものなのか、特定のデータセットの構築が必要だったのかな?

フクロウが大好きです。フォトリアリズムはトレーニングの重点分野の一つでした。「AIっぽい見た目」(例えば、プラスチックの肌)がFLUX.1モデルシリーズの最大の不満だったからです。フォトリアリズムは、細かい調整と好みのデータセットの慎重なキュレーションによって達成されました。

誰か、12Bパラメータモデルなのに、なぜsafetensorファイルが23.8GBなのかを簡単に説明してくれませんか?モデルは24GBのVRAMを使っているのか、それとも12GBのVRAMなのか。1億パラメータ=1GBのVRAMだとずっと思ってたんだけど、この推定は間違ってるの?

それは、パラメータごとに8ビットに量子化されたものとしては良い目安だね。でも、16ビットや32ビットの場合は2倍や4倍になるよ。

パラメータは任意のサイズの浮動小数点数になり得るよ。ダウンロードできるモデルの多くはFP8(パラメータごとに8ビット)だけど、このモデルはFP16(パラメータごとに16ビット)のようだね。トレーニングはFP16で行われ、その後配布のためにFP8やFP4に量子化されることが多いよ。

bfloat16フォーマットを使った簡単な計算をすると、1B * 16ビット = 16Bビット = 2GBになるね。12Bのパラメータモデルだから、約24GBってことになる。float32からbfloat16にダウンクastingしても、パフォーマンスの低下はほとんどないから、重みをbfloat16フォーマットでアップロードしたよ。

こういうモデルを扱うときは、いつもhttps://github.com/axolotl-ai-cloud/axolotlをLambda/Togetherで使ってるんだ。他の人たちは何を使ってるのか気になるな。始めるのに一番早い方法は何だろう?事前学習と事後学習について言及してるけど、残念ながら参考になるスタートスクリプトは提供されてないみたい。

実は推論コード用のGitHubリポジトリがあるんだ。これをチェックしてみて:https://github.com/krea-ai/flux-krea ブログ記事にもっと詳しい情報を追加できるか確認するね。教えてくれてありがとう!

NVIDIA最適化版はある?RTXで加速されたFLUXのように。

FLUX.1 Kreaのために別のRTX加速版は追加してないけど、モデルは既存のFLUX.1開発コードベースと完全に互換性があるよ。ただ、別のonnxエクスポートは作ってないと思う。4~8ビットの量子化版をSVDQuantで作るのは、消費者向けハードウェアに優しいチェックポイントになるから、いいフォローアップになると思う。

簡単なプロンプトを試してみたら、かなり面白い結果が出たよ。「レイブでターンテーブルを回すタコDJ」ってやつ。DJが生やす人間のような手が面白いし、どんなにプロンプトを入れても止まらないみたい。論文にも書いてある通り、意見が強いね。

「指のないタコDJ」と説明したら、手が消えたけど、面白いことに、タコの人間的な要素も全部なくなって、ただのタコがターンテーブルを回してるだけになった。

細かいことですが、これはオープンウェイトではなく、利用可能なウェイトです。ライセンスは商業利用やNSFWなど、多くのことを制限しています。

つまり、これはStable Diffusion 1.xから始まって、XLに進化したもので、最初は緩やかにオープンだったのが、どんどんオープンライセンスの画像生成モデルから遠ざかって「オープンウェイト」と呼ばれるようになってきました。でも、そうですね、Flux.1 Krea(BFL自体のFlux.1のウェイト利用可能バージョンのようなもの)は、古いStable Diffusionのバージョンのオープンさにも達していません。利用可能なウェイトはあるけど、「特定の用途に対しては無料」とは言えますが、オープンではありません。

自分が考えているものを作ったことはありません:ガルトンボードです。上部には数インチ離れて2つの穴があり、そこからボールが落ちます。一つは青いボール、もう一つは赤いボールを落とします。下で合成分布が列に形成され、二重の重なり合った正規分布を示します。こんなのを想像してみてください:https://imgur.com/a/DiAOTzJ でも、上に2つの注ぎ口があって、異なる色のボールを落とすものです。試作したものはこちら:https://imgur.com/undefined https://imgur.com/a/uecXDzI

実際に作ってみたことはありますか?ダブルのものの動画が見つからないんです。