世界を動かす技術を、日本語で。

FLUX.1 コンテクスト

概要

FLUX.1 Kontextは、テキストと画像を組み合わせた高度な画像生成・編集AI。 画像の一部だけを編集したり、キャラクターの一貫性を保つことが可能。 テキスト指示による簡単かつ即時の編集体験を提供。 複数のモデル(max, pro, dev)で用途や性能に応じて選択可能。 反復的な編集と高品質な出力を両立する次世代ソリューション。

FLUX.1 Kontextの特徴

  • テキストと画像 の両方を理解し、生成・編集が可能なAIモデル
  • 既存の画像に対して テキスト指示 で簡単に編集できる柔軟性
  • ファインチューニングや複雑な編集作業 が不要なワークフロー
  • 画像の キャラクターやオブジェクトの一貫性 を維持
  • 特定要素のみ編集 できるローカルエディット機能
  • スタイル参照 による新規シーン生成と独自スタイルの保持
  • インタラクティブな高速生成・編集 による即時のフィードバック
  • 反復的に 指示追加や編集 ができ、品質や一貫性を保ちながら段階的に作成可能

FLUX.1 Kontext モデルラインナップ

  • FLUX.1 Kontext [max]

    • 最高性能と高速性 を両立したプレミアムモデル
    • プロンプト解釈力タイポグラフィ生成 が大幅向上
    • 編集時も 一貫性とスピード を損なわない設計
    • 多様なプラットフォーム で利用可能
  • FLUX.1 Kontext [pro]

    • 迅速な反復編集 に特化した統合モデル
    • ローカル編集生成的修正テキストto画像生成 を一つで実現
    • 画像とテキスト入力による エリア指定編集全体変換 が可能
    • 高品質とキャラクター一貫性 を維持したまま高速処理
  • FLUX.1 Kontext [dev]

    • オープンウェイト かつ 最先端の生成画像編集 モデル
    • Kontextシリーズの知見を凝縮 したディスティルドバージョン
    • 開発者や研究用途 に最適

FLUX.1 Kontextの活用イメージ

  • キャラクターやオブジェクトを維持したまま、異なる背景やシーンへ展開
  • 一部だけ色や形を変更 し、他の部分はそのまま残すピンポイント編集
  • 参照画像のスタイルを新しいシーンに適用 し、独自の世界観を表現
  • 短時間で複数回の編集 を繰り返し、理想のビジュアルに仕上げるプロセス

まとめ

  • FLUX.1 Kontextは 次世代の画像生成・編集AI として、柔軟性・一貫性・スピードを兼ね備えたソリューション
  • 多様なモデル展開 により、用途やニーズに応じた最適な選択が可能
  • 従来のテキストto画像AIを超える、コンテキスト重視の編集体験を実現

Hackerたちの意見

興味がある人のための技術レポートはこちら: https://cdn.sanity.io/files/gsvmb6gz/production/880b07220899...

残念ながら、誰もレポートを読みたがらないけど、実際に欲しいのはオープンウェイトモデルのダウンロードなんだよね。それを持って行って、自分で使いたいって感じ。(戻してくれる人もいないし)

実装は簡単そうだね(他のやつとすごく似てる、HiDream-E1、ICEdit、DreamOとか)。魔法はデータキュレーションにあるみたい(詳細はちょっとだけ共有されてる)。

顔を消す例がよくわからないな。他の写真がないと、ただのステレオタイプな画像を使ってるだけじゃない?

うーん、基盤となるモデルやパイプラインのどこにいるかによるね。アイデンティティモデルは、部分的なジオメトリから顔を補間するのがかなり高度なんだ。

スライドショーは最初の例でバグってるみたい。入力画像には彼女の顔の大部分を覆う雪の結晶がある。

"真実"を明らかにしてるわけじゃないし、実際の顔もない。これらは全部生成された画像だよ、そうだね。

実際の画像を使うとモデルが顔を変えちゃうから、初期画像に顔が映ってなければその問題は解消されるんだと思う。

例をもっとよく見てみて。明らかに、部分的に隠れている物体に対して推論の機会があるよ。

西洋の美の基準がフェティシズムするアジアの特徴を選んでるけど、アジアでは全然真剣に受け取られないよね。アメリカのテキストから画像生成モデルは、あまり魅力的じゃなくて、肌の色が濃い人を生成する傾向があるのに対して、中国のテキストから画像生成モデルは、魅力的で肌の色が明るい人を生成することが多い。これは中国のAIモデルが光るもう一つの分野だと思う。

これをローカルで調整してトレーニングするのに、どれくらいの知識が必要なんだろう? RTX 4090を使ってWindowsでFlux 1 devの上にLoRaカスタマイズをトレーニングしようと2日間頑張ったけど、うまくいかなくて。このテーマやPythonライブラリについてどこまで勉強すればいいのかもわからない。こういうのってスクリプトキディもいるの?それとも専門家だけ?

オープンソースモデルはまだリリースされてないけど、Flux 1 Devの上でLoRAをトレーニングするより簡単にはならないと思うよ。

comfyuiを通して設定済みのものを見つけるのは普通に簡単だよ。時々、YouTuberがPatreonの裏に隠してることもあるけど。

https://github.com/bghira/SimpleTuner を使ってみて。これを使って自分でLoraをトレーニングするスクリプトを実行できたから、Pythonライブラリを学ぶ時間をかけずに済んだよ。

RTX 4090でWindows上のFlux 1 devでLoRaのカスタマイズをトレーニングしようと2日間頑張ったけど、Windowsが主な問題で、ほんとに活用するにはLinuxが必要だね。

現在、これを試してるところ(Replicateエンドポイントを使用中: https://replicate.com/black-forest-labs/flux-kontext-pro)。Replicateは、FLUX Kontextを使った画像編集の一般的なユースケースの例を含む「アプリ」もホストしてるよ: https://replicate.com/flux-kontext-apps かなり良い感じで、生成される画像の質は、シンプルな画像から画像への生成に使う場合、GPT-4oの画像生成に似てる。生成は約4秒でスピーディーだよ。このページで使われている例以外のプロンプトエンジニアリングはちょっと面倒で、時間とともに進化すると思う。スタイルや特定の要素を変えるのは確かにできるけど、具体的になればなるほど、特定の部分を無視する傾向があるね。

生成は大体4秒くらいで速いね。どのGPUとVRAMを使ってるの? 編集:あ、もしかしてhuggingfaceのUIを通してって意味だったのかな。

正直、Replicateが常に最新情報を提供してくれるのが大好き。急速に進化するAIの時代に生きているだけでなく、研究用の新しいモデルがすぐにAPIを通じて利用可能になり、プロダクションでスケールに合わせて使えるってすごいよね。こういうモデルのリリースに影響を与えているディストリビューター、Replicateみたいなのがいるってことは重要だと思う。

元のディテールを保つ点では、4oの画像生成よりも正確な気がする。3Dの動物キャラクターを渡して、照明を変えるようなちょっとした変更を頼むと、4oはキャラクターの顔を完全にめちゃくちゃにしちゃうし、体や他のディテールも少し変わる。でも、このFluxモデルは、ポーズや照明を大きく変えるように頼んでも、目に見えるジオメトリをほぼ完璧に保ってくれる。

FLUX Kontextモデルを自分のGenAI画像比較サイトに追加するか悩んでる。モデルのMaxバリアントはプロンプトの遵守がかなり高くて、Flux 1.devのスコアをほぼ倍にしてるけど、OpenAIのgpt-image-1にはまだ及ばないんだよね(視覚的忠実度は別として)トップのリーダーボードにいるし。Flux 1.Dを残しておくのが好きだったのは、ローカルのGenAI能力の良いベースラインとして使えるから。 https://genai-showdown.specr.net ちなみに、HunyuanのImage 2.0モデルの最新リリースも追加したけど、リアルタイムモデルとしては予想通りスコアがあまり良くないね。編集:Black Forest Labsに公平を期すために言うと、このモデルは既存の画像を洗練させたり反復したりする編集機能にもっと焦点を当ててるみたいで、厳密なテキストから画像の生成にはあまり向いてない感じだね。

いいサイトだね!ずっと上手くいかなかったプロンプトの提案があるんだけど、試したのは結構前で、モデルもかなり改善されてると思うから、今ならできるかも。剣を持った騎士が私たちに背を向けて、軍隊に立ち向かっているシーン。後ろにいる弓兵たちが撃つ矢の雨から自分を守るために、頭上に盾を掲げている。モデルのパフォーマンスがひどくて驚いたよ。かなりアイコニックなシーンなのに、トレーニングデータは十分すぎるくらいあるのにね。

いくつかのサンプルはちょっと選りすぐりすぎな気がする。「Kontext Apps」のプロフェッショナルヘッドショットアプリを実際に試した人いる? https://replicate.com/flux-kontext-apps 自分の写真を半ダース投げてみたけど、完全に別の人に置き換えられちゃった。まあ、最終的なヘッドショットはかなりプロっぽく見えたけどね。

入力画像のアスペクト比と出力のアスペクト比は同じなのかな?テストしてみた感じ、強制的にシフトさせると変なことが起きることに気づいた。

顔のアイデンティティ保持の科学的問題は、まだ誰も解決してない。手の問題すら解決されてないし。

オープンデベロッパーバージョンがリリースされるのはいつ頃だと思う?1週間くらい?それとも1か月か2か月くらいかな。

入力は一枚の画像だけに制限されてるの?もっと画像を使えたら、「画像Aのアイテムを画像Bの中に置く」とか、例えば「画像Aのキャラクターを画像Bの風景に入れる」みたいなプロンプトができるのに。

複数の画像を入力できる実験的な「マルチ」モードがあるよ。

Falはマルチ画像インターフェースをテストしてる。これ、マジでヤバい!gpt-image-1には及ばないけど、めっちゃ近い。画像や動画に関してはもう独占はないね。GoogleやOpenAIがクリエイティブを永遠に勝ち取るんじゃないかって心配してたけど、そんなことはない。誰でもこれを作れるよ。

ちょっとしたチャットインターフェースを作ってみたよ。https://kontext-chat.vercel.app/

チェスを生成できるのかな?https://manifold.markets/Hazel/an-ai-model-will-successfully...