ハクソク

世界を動かす技術を、日本語で。

FLUX.1 Kreaのオープンウェイトを公開する

2025年7月31日原文(krea.ai)

概要

Krea 1 はBlack Forest Labsと共同開発した、 美的コントロールと高画質 を重視した画像生成モデル
FLUX.1-Krea [dev] は、Krea 1の品質と美的感覚を維持しつつFLUXエコシステムと完全互換
「AIらしさ」 （AI look）を排除した自然な画像生成を目指す
学習工程 は「多様性重視の事前学習」と「美的偏りを与える事後学習」の2段階
今後も 直感的な製品開発 と美的評価の研究を継続

Krea 1: 美的コントロールと高画質を実現する新しい画像生成モデル

Krea 1 はBlack Forest Labsと共同開発した、 美的コントロール と 画像品質 に特化した画像生成モデル
FLUX.1-dev と完全互換で、既存のFLUXエコシステムへのシームレスな組み込みが可能
FLUX.1-Krea [dev] は、Krea 1の品質と美的感覚を維持するように設計
他の多くの画像生成モデルと異なり、 明確な美的指向 を持つ設計思想
独自の美的好みに最適化したモデル構築を目指した開発方針

「AIらしさ」の課題とモデル開発の動機

近年の画像生成AIは、 人間の顔や手足、複雑な構図や文字 も生成可能
しかし「 AI look」（過度にぼやけた背景、ワックスのような肌、単調な構図等）が頻出
技術的な指標やベンチマーク最適化が進む一方で、 本来の多様性や創造性 が後退
DALLE-2 のような初期モデルは不完全だが、面白い出力も多かった
開発目標は「 AIらしくない画像」の実現

既存ベンチマークと美的評価の限界

事前学習では FID や CLIP Score 等でモデルの一般性能を評価
事後学習後は DPG や GenEval、 T2I-Compbench 等でプロンプト遵守性を評価
美的評価には LAION-Aesthetics や Pickscore 等が使われるが、 低解像度・バイアス・表現力不足 が問題
現行の美的スコアは 個人の美的感覚 を十分に反映できない
人間の好みや美的価値観 は数値化困難であり、データ選定と出力調整の工夫が必須

事前学習と事後学習の役割分担

事前学習 は「 多様性の確保」と「 世界理解」が目的
- 様々なスタイルやオブジェクトを学習し、 多様な出力分布 を持つ基礎を形成
- 「悪い画像」も学習し、 ネガティブプロンプト による制御性を高める
事後学習 は「 美的偏りの付与」が目的
- 事前学習モデルの多様性を活かしつつ、 好ましい分布へ強くバイアス をかける
- 「焼きが浅い」未調整モデル（flux-dev-raw）をベースに採用

事後学習パイプラインの詳細

Supervised Finetuning（SFT） と Reinforcement Learning from Human Feedback（RLHF） の2段階構成
- SFTでは 高品質な画像データセット を手作業でキュレーション
  - Krea-1由来の合成画像も活用し、安定性向上
  - カスタム損失関数 でガイダンス付き分布に直接微調整
- RLHFでは TPO（Preference Optimization） を適用し、美的・スタイル面を強化
  - 内部で厳選した 高品質な人間の好みデータ を用いて複数回最適化
  - 出力の微調整と美的方向性の向上

主要な発見と学び

質重視 ：100万件以下の小規模高品質データでも十分な事後学習が可能
- データの質が最重要であり、量は安定性やバイアス緩和に寄与
- アノテーターは現状モデルの弱点や改善点を深く理解した上でラベリング
美的指向の明確化 ：既存のオープンソース好みデータセットは 単調化やAI lookへの回帰 の原因
- 「グローバルな好み」よりも 明確な美的指向 でモデルをオーバーフィットさせる方が効果的
- テキストレンダリングや構造など客観的な目的には多様なデータが有効だが、美的目標には 一貫したアートディレクション が重要
- LoRAや細かいプロンプト調整なしでも デフォルトで美的な出力 を目指す

今後の研究・開発の方向性

直感的な製品開発 と 美的評価手法の進化 に注力
人間の美的好み をより柔軟かつパーソナルに反映できるモデル構築
グローバルな評価指標と個別の美的価値観 の両立を目指す研究推進

Hackerたちの意見

みんなこんにちは！Kreaの共同創業者でCTOの○○です。モデルのウェイトをリリースして、HNコミュニティと共有したいと思ってたので、すごくワクワクしてます。チームと一緒にオンラインで質問に答えられるように頑張りますので、気軽に聞いてくださいね！

└

こんにちは。これをありがとう。あなたの目的は何ですか？ビジネス的な観点からですか？それとも純粋に利他的なものですか？

└

Fluxの「Kontext」バージョン、つまり編集モデルに取り組む予定はありますか？こういったプロンプトによる画像編集のユースケースは本当に膨大だと思います。デモには驚かされましたが、オープンウェイト版の品質はまだ見ていません。それも12Bのディスティルですし。

こんにちは！Krea-1のリードリサーチャーです。FLUX.1 Kreaは、Krea-1から蒸留された12Bの整流フローモデルで、FLUXアーキテクチャに対応するように設計されています。技術的な質問があれば、どんどん聞いてくださいね :)

└

これをやってくれてありがとう！「FLUXアーキテクチャと互換性があるように設計されている」ってどういう意味？それが重要なのはなぜ？

└

モデルがすごく見えますね！この部分についてですが、> 「flux-dev-rawはガイダンスを凝縮したモデルなので、分類器なしのガイド付き分布でモデルを直接ファインチューニングするためのカスタムロスを考案しています。」具体的にどんなロスを使っているのか、そしてファインチューニングのための他のヒントがあれば詳しく教えてもらえますか？オープンソースのAIアートコミュニティが元のdistilled flux-devのファインチューニングで苦労していたのを覚えているので、すごく興味があります。

やあ、HN！Kreaの創業者の一人です。FLUX Kreaのトレーニングについてのブログ記事を用意したので、興味があればぜひ見てみてください！: https://www.krea.ai/blog/flux-krea-open-source-release

└

余談ですが、ウェブサイトでスクロールバーを本当に隠しましたか？なんで...? .scrollbar-hide { -ms-overflow-style: none; scrollbar-width: none; }

すごい！そのフクロウ、ほんとにフクロウっぽくて匂いがしそう。記事からは、フォトリアリズムがトレーニングの目標だったわけではなさそうだけど、それは人間の好みから自然に出てきたものなのか、特定のデータセットの構築が必要だったのかな？

└

フクロウが大好きです。フォトリアリズムはトレーニングの重点分野の一つでした。「AIっぽい見た目」（例えば、プラスチックの肌）がFLUX.1モデルシリーズの最大の不満だったからです。フォトリアリズムは、細かい調整と好みのデータセットの慎重なキュレーションによって達成されました。

誰か、12Bパラメータモデルなのに、なぜsafetensorファイルが23.8GBなのかを簡単に説明してくれませんか？モデルは24GBのVRAMを使っているのか、それとも12GBのVRAMなのか。1億パラメータ＝1GBのVRAMだとずっと思ってたんだけど、この推定は間違ってるの？

└

それは、パラメータごとに8ビットに量子化されたものとしては良い目安だね。でも、16ビットや32ビットの場合は2倍や4倍になるよ。

Hacker Newsで議論の続きを見る