世界を動かす技術を、日本語で。

Krea 2: SOTAオープンウェイト12B画像モデル

2026年6月24日原文(krea.ai)

概要

  • 画像生成分野の進化と現状の課題を解説
  • Krea 2モデルの目的と設計思想を紹介
  • 独自の大規模データインフラと多段階学習パイプラインを強調
  • テキスト・画像両方からの探索性と制御性向上策を説明
  • データ選定・キャプション生成・品質管理の詳細手法を解説

画像生成分野の進化とKrea 2の登場

  • 近年、 DiffusionFlow-matching モデルの登場で高解像度・高精細な画像生成が可能に
  • Transformerアーキテクチャ の拡張や テキストエンコーダ の改良、 パイプライン化された後処理技術 が進化の要因
  • 主流システムは安定した品質を追求するあまり、 画一的な美的傾向 へと収束
  • 創造的探索には、 多様なスタイル・雰囲気・構図 の横断が必要
  • この課題解決のため、 Krea 2 は「探索可能な表現力」と「制御性」に特化した基盤モデルを開発

Krea 2の設計思想と技術概要

  • 画像生成=創造的な探索媒体 という信念のもと、幅広い美学と制御性を実現
  • 独自構築の 大規模データインフラ分散学習フレームワーク で、世界知識と多様なスタイルを網羅した事前学習データセットを作成
  • 事前学習中間学習SFT(教師あり微調整)嗜好最適化強化学習(RL) という多段階パイプラインでモデルの出力分布を段階的に洗練
  • Diffusion Transformer(DiT) アーキテクチャを徹底的なアブレーションで開発
  • 収束加速のための iREPA改良VAEQwen3-VL 導入
  • Grouped-Query Attention(GQA)Sigmoid-Gated Attention軽量タイムステップ変調多層特徴集約 などのアーキテクチャ改良で安定性・効率性向上

ユーザー制御性向上の仕組み

  • 学習時は 詳細なキャプション から豊かな視覚情報を学習
  • 実際のユーザー入力は 短文・曖昧 ・表現の癖が多様
  • Prompt Expander :簡素なプロンプトを意図を損なわずに多様な視覚表現へ拡張
    • 2段階SFT+RL で創造的多様性と制御性を両立
  • Style-Reference System :言葉で表現しきれない場合、 参照画像 からスタイルや雰囲気を注入
    • スタイル強度やミックス比率 も細かく調整可能
  • これらの機能により、 テキスト・画像の両面から探索的生成 を実現

Krea 2の性能・位置付け

  • Artificial Analysisリーダーボード のtext-to-image部門で トップ10入り
  • 独立系ラボモデル中2位 の評価
  • 競争力ある性能 を維持しつつ、 創造的生成体験包括的なベースライン を提供

データ選定とキュレーション方針

  • 目的に適合した「良いデータミックス」は 高品質画像だけでなく、多様性と広いドメインカバレッジ が不可欠
  • 従来の美的スコアやIQAによる機械的フィルタリング は、芸術的意図を損なうバイアスの温床
  • キャプションが画像を正確に記述していれば、望ましくない画像も学習上有用
  • 重複・過剰代表コンセプト・重要要素を捉えられない画像・バイアス誘発画像・複雑すぎる画像・AI生成画像 のみを除外
  • AI生成画像 はごく少量でもモデル出力にバイアスを与えるため、 独自分類器 で徹底排除

キャプション生成とプロンプト多様性

  • OCRモデル で画像内テキスト抽出→ メタデータ と合わせてキャプション生成
  • 長文・多様な形式 のキャプションを生成し、 多様なプロンプトスタイル でモデルを訓練
  • 長文プロンプト で密な監督信号を与え、 収束高速化と損失低減 を実現
  • 短文・中間長プロンプト も訓練中に適度に露出させ、実用性を担保

事前学習データと品質管理

  • 256px/512px/1024px の解像度段階でデータ拡張
  • 低解像度段階 で基本的なテキスト画像整合性・構造を学習
    • CPUベースの高速フィルタリング (壊れファイル・解像度・アスペクト比・ラプラシアンフィルタなど)
    • RGBエントロピー独自ヒューリスティック でアーティファクト誘発画像を除去
    • 大規模VLM+DINOv3/SigLIP-2小型分類器 によるタスク特化型フィルタで効率化
    • md5/phash/colorhash を組み合わせた重複除去
  • 高解像度段階 でのみ、 品質・美的スコア を使い極端な低品質画像のみ除外
  • スパースオートエンコーダ(SAE)+VLMアノテーション でアノマリ検出・タグ付け

中間学習データとクラスタリング

  • 中間学習 では特定ドメインや高品質ソースを明示的に選定
  • FAISSによる階層的k-meansクラスタリング でロングテール概念も網羅
  • VLMによるクラスタ命名・フラグ付け+人間のレビュー で問題クラスタを除去
  • SigLIP類似度 によるセマンティック重複除去
  • エンティティ表現力強化 のため、 Wikipedia PageRank+Wikidataメタデータ で主要概念を抽出・カバレッジ評価

このように、Krea 2は 創造的探索性・制御性・多様性 を追求し、 データ選定・モデル設計・ユーザー体験 の各側面で徹底した工夫を凝らした画像生成基盤モデルです。

Hackerたちの意見

こんにちはHN、最新のテキストから画像へのモデルの重みをリリースします。そして、どのようにトレーニングしたかをかなり詳しく書いたレポートも公開します。レポートにはみんなにとって興味深い内容があるといいなと思ってます。実際のトレーニングやデータインフラについても結構詳しく書いているので、ここにいる人たちにも面白いと思ってもらえるはず。収まりきらなかったこともあるので、質問があれば喜んで答えます!

これはオープンウェイトの画像生成モデルに関する大規模な技術レポートだね。この分野をずっと追ってきた者として、最終製品に至るまでの裏側の実験や努力について読むのは本当に面白い。コミュニティが実験できるようにファインチューニングツールもリリースしてくれるといいな。モデルの可能性をもっと引き出せると思う。

いいね!Ideogram4、Flux2、Qwen-Image、ZiT、Kreaの間で、オープンウェイトの分野でポジティブな動きがたくさんあるね。元々のFlux.1 Kreaは、昨年の7月に私のGenAI Showdownベンチマークサイトに載ってるんだ(この分野ではまるで昔のことのように感じるけど)。だから、この新しいモデルを試すのが楽しみだよ。

Kreaはポルノやゴアコンテンツに対してどんなアプローチを取ってるの?安全の名のもとに、合法であっても悪徳コンテンツを排除する厳しい姿勢を取る主要なモデルが多いのを見て、イライラしてるんだ。

ところで、キャリアページに面白いアイテムがあるよ。昔のMellanoxがどういうものだったか知ってる人には、ピッタリかもね:https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072a... :D

TurboはすでにGGUF化されているみたいだね:https://huggingface.co/Abiray/Krea-2-Turbo-GGUF

良いモデルだけど、qwen vaeの使用がちょっと残念だね。

一部の人が言ってるのは、wan2.1 vaeを使うとこれが解決するらしいよ。私はまだ試す時間がなかったけど。

Krea 2 Large(ウェブサイトとAPI)はFLUX 2 VAEでトレーニングされたよ。リアリズムを試したいなら、これを使ってみて。両方を使ってみたけど、flux VAEはリアルなテクスチャを学ぶのに少し優れていると思う。ただ、思っているよりも小さいんだ。Qwen VAEは全体的にアブレーションでとても良かったし、多様なスタイルを生み出すのも得意だったよ。

Krea 2で遊ぶのが楽しみ!毎日Z-Image Turboを使ってるんだけど、リアリズムやイラストのためにストックフォトのサブスクリプションを置き換えちゃった。トレーニングにかかった費用はどれくらいだったのか聞いてもいい?

確かにコーヒーはたくさん必要だね。トレーニングコストについては、推論と研究のワークロードを使った共有のKubernetesクラスターを利用したから、正確な見積もりは難しいよ。

こんにちは、HNのみんな!私はKreaの共同創設者でCTOのディエゴ・ロドリゲスです。現在、重みと「おいしい」技術報告書をリリースしています。今の業界基準からするとね。この中では、データのキュレーションやキャプショニング、モデルアーキテクチャ、ポストトレーニング、RLパイプライン、プロンプトの拡張、スタイルリファレンス、インフラについて詳しく説明しています。重み自体については、実は2つのリリースがあります。* Krea 2 Turbo。このモデルは、より速い推論のためにガイダンスとタイムステップで蒸留されています。* Krea 2 RAW。このモデルは、実際にはハッカブルで微調整可能です。私たちが思うに、(オープンな)LLMコミュニティがうまくやっていることの一つは、異なるサイズやトレーニングパイプラインの異なる段階でモデルをリリースすることです。私たちは、中間トレーニングとポストトレーニングの両方の段階で2つのチェックポイントをリリースします。これは画像やマルチメディアのコミュニティでは珍しいので、このリリースには誇りを感じざるを得ません。人工分析のテキストから画像へのベンチマークによると、Nano Bananaと同等の画像品質です。個人や小規模ビジネス向けに許可されたライセンスも添付しています。役立つリンク:- OSSリリースに関するマーケティングページ: https://www.krea.ai/krea-2-open-source - Huggingfaceモデル: https://www.krea.ai/krea-2/huggingface - GitHubリポジトリ: https://www.krea.ai/krea-2/github - Reddit AMA: https://www.reddit.com/r/StableDiffusion/comments/1udnm0a/we... - 技術報告書: https://www.krea.ai/blog/krea-2-technical-report ありがとう、楽しんでくれたら嬉しいな!ハッキングを楽しんでね!今はフロントページにいるから、私たちのチームメンバーが質問に答えるよ(HNに感謝!)。ハッキングを楽しんで!

Hacker Newsで議論の続きを見る