-
서론
오늘 Black Forest Labs는 FLUX.1 Kontext 모델을 공식 출시했습니다. 이 모델은 생성적 흐름 매칭 모델(generative flow matching models)의 새롭고 혁신적인 집합으로, 이미지 생성과 편집 기능을 동시에 제공할 수 있습니다. 이번 출시는 AI 이미지 생성 분야에서 중요한 이정표가 되며, 특히 맥락 인식 이미지 처리의 발전을 나타냅니다. FLUX Kontext 모델의 출시는 AI 이미지 생성 및 편집 분야에서 중대한 정점을 이루었습니다. 기존의 텍스트-투-이미지(text-to-image) 모델과는 달리, FLUX Kontext는 진정한 '맥락 내' 이미지 생성을 가능하게 하며, 사용자가 텍스트와 이미지를 동시에 프롬프트로 활용하고, 시각적 개념을 원활하게 추출하고 수정하여 새로운 일관된 렌더링 효과를 생성할 수 있도록 허용합니다. 이러한 기능은 창작자가 이미지 생성 및 편집 과정을 보다 정교하고 직관적으로 제어할 수 있게 하여, AI 지원 창작의 효율성과 품질을 크게 향상시킵니다. -
FLUX Kontext 모델 개요
FLUX.1 Kontext는 생성적 흐름 매칭 모델로, 기존의 텍스트-투-이미지 모델을 포괄적으로 확장하는 의미를 가집니다. Black Forest Labs의 공식 발표에 따르면, 이 모델 시리즈는 세 가지 서로 다른 버전으로 구성되어 있으며, 각 버전은 다양한 사용 요구와 상황에 맞게 최적화되었습니다:- FLUX.1 Kontext [pro] - 빠른 이미지 편집을 위한 선구적 모델입니다. 이는 로컬 편집, 생성적 맥락 수정 및 전통적인 텍스트-투-이미지 생성 기능을 제공하는 통합된 모델로, FLUX.1의 상징적인 고품질을 갖추고 있습니다. FLUX.1 Kontext [pro]는 텍스트와 참조 이미지를 입력으로 동시에 처리하여 특정 이미지 영역의 로컬 편집과 전체 씬의 복잡한 전환을 원활하게 구현합니다. 이 모델은 이전의 최첨단 모델보다 10배 빠른 속도로 동작하며, 사용자에게 다중의 연속 편집을 통해 이전 편집을 구축할 수 있는 최초의 기회를 제공하여, 역할, 정체성, 스타일 및 고유 특성을 다양한 시나리오와 시점에서 일관성 있게 유지합니다.
- FLUX.1 Kontext [max] - 높은 속도에서 최대 성능을 발휘하는 새로운 고급 모델입니다. 이는 프롬프트 따르기와 타이포그래피 생성 능력을 크게 개선하였으며, 편집 기능의 높은 일관성을 제공하면서도 속도를 희생하지 않습니다.
- FLUX.1 Kontext [dev] - 공개된 가중치, 증류 버전의 Kontext입니다. 이는 경량화된 12B 확산 변환기로, 맞춤형 사용에 적합하며, 이전의 FLUX.1 [dev] 추론 코드와 호환됩니다. 이 버전은 현재 비공식 테스트 단계에 있으며, 주로 연구 및 보안 테스트에 사용됩니다.
FLUX.1 Kontext의 핵심 기술 아키텍처는 생성적 흐름 매칭(generative flow matching)에 기반합니다. 전통적인 확산 모델과는 달리, 흐름 매칭 모델은 훈련 및 추론에서 독특한 장점을 가지고 있으며, 특히 멀티모달 입력(텍스트와 이미지)을 처리할 때 강점을 보입니다. Black Forest Labs의 CEO이자 공동 창립자인 로빈 롬바흐(Robin Rombach)는 "FLUX.1 Kontext는 단일 흐름 매칭 아키텍처 내에서 이미지 생성과 편집을 통합함으로써 전통적인 편집 방법에 대한 근본적인 전환을 나타냅니다. 간단한 흐름 매칭 훈련을 통해 우리는 다중 편집에서 최첨단 캐릭터 일관성을 달성하며, 1MP 해상도에서 3-5초의 상호작용적 추론 속도를 유지했습니다. 이는 과거에 비주얼 드리프트와 지연 제한으로 인해 불가능했던 진정한 반복적 창의 작업 흐름을 가능하게 합니다." 기존 텍스트-투-이미지 모델과 FLUX.1 Kontext의 가장 큰 차별점은 그 '맥락 내' 이미지 생성 능력에 있습니다. 전통적인 모델은 주로 텍스트 프롬프트를 받아 완전히 새로운 이미지를 생성하는 반면, Kontext는 텍스트와 이미지를 동시에 이해하고 처리하여 보다 정교한 편집 및 생성을 가능하게 합니다. 이러한 능력을 통해 사용자는 간단한 텍스트 지침으로 입력 이미지를 수정하고, 즉각적이고 유연한 이미지 편집을 수행할 수 있으며, 미세 조정이나 복잡한 편집 작업 흐름이 필요하지 않습니다. 다음 이미지는 단순히 텍스트 프롬프트: "특대화", "측면보기로 변경", "고개 숙이기", "황야에서 걷기"와 같은 프롬프트로 생성된 매우 일관된 캐릭터들을 보여줍니다.
-
기술 특징 및 혁신점
FLUX.1 Kontext 모델 시리즈는 현재 AI 이미지 생성 및 편집 분야에서 돋보이는 여러 혁신적인 기술 특징을 가지고 있습니다. 공식 문서와 기술 보고서에 따르면, 이러한 핵심 특징은 다음과 같습니다:- 맥락 이미지 생성(In-context Image Generation)
FLUX.1 Kontext의 가장 두드러진 혁신은 그 맥락 인식 이미지 생성 능력입니다. 텍스트 프롬프트만 받는 전통 모델과는 달리, Kontext는 텍스트와 이미지 입력을 동시에 이해하고 처리하여 보다 정교한 편집 및 생성을 가능하게 합니다. 이러한 멀티모달 흐름 모델은 최신의 캐릭터 일관성, 맥락 이해 및 로컬 편집 기능을 강력한 텍스트-투-이미지 합성과 결합합니다.
Black Forest Labs의 공식 발표에서 언급하길 "FLUX.1 Kontext는 클래식 텍스트-투-이미지 모델의 중요한 확장을 나타내며, 즉각적인 텍스트 이미지 편집과 텍스트-투-이미지 생성을 통합합니다. 멀티모달 흐름 모델로서 최신의 캐릭터 일관성, 맥락 이해 및 로컬 편집 기능을 강력한 텍스트-투-이미지 합성과 결합합니다." - 캐릭터 일관성(Character Consistency)
Kontext는 참조 캐릭터나 물체와 같은 이미지 내 독특한 요소의 일관성을 다양한 환경과 장면에서 유지할 수 있습니다. 이 특성은 다중 편집 과정에서 특히 중요하며, 사용자가 캐릭터의 정체성, 스타일 및 고유 특징을 유지하면서도 복잡한 장면 전환을 가능하게 합니다.
Replicate 블로그의 리뷰에서는 "Kontext는 캐릭터 일관성을 유지하는 데 뛰어난 성능을 보이며, 일련의 편집을 거쳐도 일관성을 유지합니다. 명확한 참조(예: '짧은 검은 머리 여성')로 시작하여 변화를 설명합니다. 만약 같은 사람을 유지하고 싶다면, 보존할 내용을 언급하기만 하면 됩니다: 얼굴,표정, 의상 또는 기타 중요한 요소들." - 로컬 편집 능력(Local Editing)
이 모델은 이미지 내 특정 요소에 대해 타겟팅된 수정을 수행할 수 있으며, 나머지 부분에는 영향을 미치지 않습니다. 이러한 정밀한 로컬 편집 능력은 창작자가 미세한 조정이나 중요한 변화를 수행하면서도 이미지의 전체 구조와 맥락을 유지할 수 있게 해줍니다.
BusinessWire의 보도는 "이 모델은 이미지 내에서 시각적 개념을 이해하고 추출할 수 있으며, 다양한 장면에서 스타일과 캐릭터 일관성을 유지하고, 우수한 충실도로 로컬 편집을 적용합니다. 이는 매끄러운 시각적 스토리텔링, 신속한 구상 및 매우 타겟팅된 콘텐츠 생성을 가능하게 합니다." - 스타일 레퍼런스(Style Reference)
Kontext는 참조 이미지의 독특한 스타일을 유지하면서 텍스트 프롬프트에 따라 새로운 장면을 생성할 수 있습니다. 이 기능은 여러 이미지 간에 일관된 시각적 언어를 유지해야 하는 창작자에게 특히 유용합니다.
- 상호작용 속도(Interactive Speed)
FLUX.1 Kontext 모델은 이미지 생성 및 편집에서도 최소한의 지연을 구현하며, 현재의 선도적인 모델(GPT-Image)보다 8배 빠른 실행 속도를 자랑합니다. 공식 성능 평가에 따르면 이러한 속도 우위는 진정한 반복적 창의 작업 흐름을 가능하게 합니다. Black Forest Labs의 CEO 로빈 롬바흐는 "간단한 흐름 매칭 훈련을 통해 우리는 다중 편집에서 최신의 캐릭터 일관성을 달성하였으며, 1MP 해상도에서 3-5초의 상호작용 추론 속도를 유지했습니다. 이는 비주얼 드리프트와 지연으로 인해 불가능했던 진정한 반복적 창의 작업 흐름을 가능하게 합니다." - 다중 편집 및 반복 능력
FLUX.1 Kontext는 사용자가 반복적으로 추가 지침을 추가하고 이전 편집을 바탕으로 구축할 수 있으며, 최소한의 지연으로 창작을 점진적으로 완성할 수 있도록 하여 이미지 품질 및 캐릭터 일관성을 유지합니다. 이 능력은 창작 과정을 더욱 유연하고 직관적으로 만들어주며, FLUX.1 Kontext [pro]는 사용자가 이미지를 생성하고 여러 "회차"로 완성할 수 있게 합니다. 다음 몇 장의 이미지는 제가 텍스트 프롬프트를 사용하여 원본 이미지를 다른 각도, 색상, 계절, 환경 등으로 수정한 것입니다.
- 맥락 이미지 생성(In-context Image Generation)
-
성능 평가 및 비교
FLUX.1 Kontext 모델의 성능을 검증하기 위해 Black Forest Labs는 광범위한 성능 평가를 진행하고, 그 결과를 기술 보고서에 발표했습니다. 공식 발표 및 기술 보고서에 따르면, 성능 평가는 다음 여러 측면을 중심으로 이루어졌습니다:- KontextBench 기준 테스트
Black Forest Labs는 텍스트-투-이미지 생성 및 이미지-투-이미지 생성을 위한 기준 테스트인 KontextBench를 구성했습니다. 이 기준 테스트는 크라우드소싱된 실제 세계 사례를 기반으로 하며, 여러 가지 맥락 이미지 생성 작업을 포괄합니다. 공식 평가 결과에 따르면, FLUX.1 Kontext [pro]는 모든 과업에서 지속적으로 최상위에 랭크되었으며, 텍스트 편집 및 캐릭터 보존에서 최고 점수를 기록하였습니다. 이는 이 모델이 이미지 일관성을 유지하고 정밀한 편집 지침을 수행할 수 있는 특별한 강점을 가지고 있음을 보여줍니다.
- 경쟁 모델과의 비교
여러 평가에 따르면, FLUX.1 Kontext는 현재 시장의 선도 모델(OpenAI의 GPT-Image 등)과 비교하여 여러 가지 장점을 보입니다:- 추론 속도: 공식 데이터에 따르면 FLUX.1 Kontext의 추론 속도는 기존의 선도 모델보다 8배 빠릅니다. 텍스트-투-이미지 생성 및 이미지 편집 작업 모두에서 그렇습니다.
- 품질 및 성능: Replicate 블로그의 평가에서는 "우리의 테스트에서 Kontext가 정확하고 뛰어난 결과를 제공한다고 발견했습니다. 이는 OpenAI의 4o/gpt-image-1 모델보다 좋고 더 저렴합니다(황색 톤이 없습니다)."
- 텍스트 편집 및 캐릭터 보존: KontextBench 테스트에서 FLUX.1 Kontext [pro]는 텍스트 편집 및 캐릭터 보존에서 최고 점수를 얻었으며, 추론 속도 측면에서도 지속적으로 경쟁사 모델보다 우수했습니다.
- 미학, 프롬프트 따르기, 타이포그래피 및 사실감
FLUX.1 Kontext는 텍스트-투-이미지 기준 테스트에서 여러 품질 차원에서 경쟁 성능을 나타냈습니다. 공식 평가에 따르면 이 모델은 미학, 프롬프트 따르기, 타이포그래피 및 사실감 기준 테스트에서 우수한 성능을 보였습니다. 특히 FLUX.1 Kontext [max] 버전은 프롬프트 따르기 및 타이포그래피 생성 능력을 더욱 개선하여 높은 일관성을 제공하면서도 속도를 희생하지 않았습니다. 이는 정확한 텍스트 렌더링과 고품질 타이포그래피가 필요한 응용 시나리오에서 뚜렷한 장점을 제공합니다.
- KontextBench 기준 테스트
-
사용 가이드와 팁
공식 문서의 상세 분석에 따르면, FLUX.1 Kontext 모델을 사용할 때의 최고의 관행과 팁은 다음과 같습니다:- 프롬프트 작성 최선 실천
FLUX Kontext를 사용할 때 프롬프트의 품질과 정확성은 출력 결과에 직접적인 영향을 미칩니다. 다음은 몇 가지 핵심적인 프롬프트 작성 요령입니다:- 구체적으로 명확하게: 명확하고 상세한 언어 사용. 정확한 색상 지정, 시각 요소의 정확한 설명 및 직접적인 동사 사용. "더 나은" 등의 모호한 용어는 피합니다.
- 단순하게 시작하기: 기본적인 변화로 시작합니다. 작은 편집을 먼저 테스트하고, 효과적인 결과를 바탕으로 발전시킵니다. Kontext는 반복 편집을 지원하므로 이를 최대한 활용합니다.
- 보존할 요소를 의도적으로 명시: 변하지 않아야 할 내용을 명확히 언급합니다. "같은 얼굴 특징을 유지하며" 또는 "원래의 구성 유지"와 같은 문구를 사용하여 중요한 요소를 보호합니다.
- 필요 시 반복: 복잡한 편집을 더 작은 단계로 분해합니다. 큰 변화는 순차적으로 진행할 때 더 쉽게 관리할 수 있습니다.
- 주체를 직접 지칭: "짧은 검은 머리 여성" 또는 "빨간 자동차"와 같은 설명적 문구를 사용하세요. 대명사를 피하세요— 이들은 대개 너무 모호합니다.
- 직접 인용 부호 사용: 텍스트 편집을 정확히 하려면 인용을 사용하세요. "‘x’를 ‘y’로 교체하세요"라고 쓰면 일반적인 지침보다 효과가 더 좋습니다.
- 구성을 명확히 지시: 장면을 편집할 때 카메라 각도나 구성을 유지해야 하는 내용인지 언급하는 것이 좋습니다. 이는 예상치 못한 배치 변화를 피하는 데 도움이 됩니다.
- 동사 선택에 유의: "변환"와 같은 단어는 완전한 재구성을 암시할 수 있으며, "조정" 또는 "수정"은 더 미세한 변화를 암시합니다.
- 프롬프트 작성 최선 실천
-
텍스트 편집 팁
Kontext는 이미지 내의 텍스트를 직접 편집할 수 있으며, 로고, 포스터 또는 태그를 처음부터 다시 생성할 필요가 없습니다. 다음은 텍스트 편집에 대한 몇 가지 국내 조언입니다:- 인용을 사용하여 변경할 정확한 텍스트 명시: 예: "‘안녕하세요, 세계’를 ‘안녕하세요, Kontext’로 변경하세요."
- 읽기 쉬운 글꼴 유지: 지나치게 스타일이 강조된 텍스트는 좋지 않을 수 있습니다.
- 보존할 내용 명확히 지시: 글꼴 스타일을 유지하는 것이 중요하다면 반드시 언급하세요.
- 가능한 한 텍스트 길이 일치: 길이의 큰 변화는 원치 않는 방식으로 레이아웃을 변화시킬 수 있습니다.
-
캐릭터 일관성 유지 방법
Kontext는 캐릭터 일관성을 유지하는 데 뛰어난 성능을 보이며 다음은 이를 유지하기 위한 몇 가지 요령입니다:- 명확한 참조로 시작: 예를 들어, "짧은 검은 머리 여성"이라 언급하고 변화할 내용을 설명합니다.
- 보존할 내용 명시: 같은 인물이 유지되도록 하려면 보존할 요소(얼굴, 표정, 의상 등)를 언급하기만 하면 됩니다.
- 배경과 장면을 편집할 때 주체 일관성 유지: 주체가 동일한 위치, 비율 또는 자세를 유지하도록 명확히 해야 합니다. 예를 들어, "그를 해변에 놓아 두세요"라고 단순히 말하는 것 외에 "배경을 해변으로 변경하되 인물은 완전히 동일한 위치에 유지하며 주체 위치, 카메라 각도, 구성 및 원근감을 유지하도록 하세요"와 같은 더 설명적인 프롬프트를 사용하세요.
-
스타일 전이 프롬프트 전략
스타일 전이를 지시할 때 구체적으로 설명하는 것이 최상의 결과를 만듭니다:- 정확한 스타일 지정: "인상파 화법" 또는 "수채화 스케치" 등과 같은 구체적인 스타일을 명시해야 합니다. "예술 스타일"과 같은 모호한 표현은 피합니다.
- 유명한 예술 운동이나 예술가 참조: "르네상스"나 "1960년대 팝 아트"와 같은 것들.
- 스타일의 정의적인 특징 설명: 예를 들어, "눈에 보이는 붓질, 두꺼운 페인트 질감 및 풍부한 색감의 깊이"와 같은 특성을 명시해야 합니다.
- 보존할 요소 명확히 설명: "원래 구성을 유지"와 같은 표현을 사용하세요.
다중 편집 유의사항
FLUX.1 Kontext는 사용자가 다중 편집을 수행할 수 있도록 하지만 다음과 같은 점을 유의해야 합니다:
-
과도한 편집 피하기: 공식 문서에 따르면, 과도한 다중 편집은 시각적 아티팩트를 도입하여 이미지 품질을 낮출 수 있습니다.
-
각 회의 편집 지시는 간단하고 명확하게 유지할 것: 복잡한 지시는 모델이 특정 프롬프트 요구사항을 잊게 만들 수 있습니다.
-
다중 편집에서 일관된 참조 유지: 예를 들어, 주체를 항상 동일한 방법으로 참조하여 일관성을 보장하세요.
-
상업적 활용과 접근성
FLUX.1 Kontext 모델 시리즈는 다양한 상업적 응용 경로와 접근 방식을 제공하여 다양한 규모의 기업과 개발자들이 그 강력한 이미지 생성 및 편집 능력을 활용할 수 있게 합니다.
- 협력 파트너 및 배포 플랫폼
FLUX.1 Kontext [max]와 FLUX.1 Kontext [pro]는 여러 플랫폼에서 사용할 수 있으며,- 창조적 플랫폼: KreaAI, Freepik, Lightricks, OpenArt 및 LeonardoAI
- 기반시설 협력 파트너: FAL, Replicate, Runware, DataCrunch, TogetherAI 및 ComfyOrg
더욱이, Black Forest Labs는 OpenArt와 KreaAI가 선호 데이터 수집에 대한 지원을 받았습니다.
- 제한 사항 및 미래 발전
비록 FLUX.1 Kontext는 이미지 생성 및 편집 분야에서 상당한 혁신을 이루었지만, 여전히 일부 제한이 존재하며, Black Forest Labs도 그 미래 발전을 위한 계획을 제시하였습니다.
- 알려진 실패 사례 및 한계
Black Forest Labs의 공식 발표에 포함된 '실패 사례' 부분에 따르면, FLUX.1 Kontext는 현재 구현에서 다음과 같은 몇 가지 한계를 가집니다:- 다중 편집의 시각적 열화: 과도한 다중 편집은 시각적 아티팩트를 도입해 이미지 품질을 저하시키는 경향이 있습니다. 공식 문서에 제공된 예시는 "여섯 번의 반복 편집 후 생성된 콘텐츠가 시각적으로 퇴화되며 눈에 보이는 아티팩트를 포함하게 됩니다."
- 지침 준수의 일관성 부족: 모델은 가끔 지침을 정확히 따르지 않거나 드물게 특정 프롬프트 요구사항을 무시할 수 있습니다.
- 세계 지식의 제한: 모델의 세계 지식이 여전히 제한되어 있어 맥락에 맞는 콘텐츠 생성을 방해합니다.
- 증류 과정에서의 시각적 아티팩트: 증류 과정은 시각적 아티팩트를 도입할 수 있으며, 이는 출력의 충실도에 영향을 미칠 수 있습니다. 이러한 한계는 FLUX.1 Kontext가 현재 기술의 최전선에 서 있지만, 특히 다중 편집의 안정성과 세계 지식 통합 분야에서 개선 여지가 있음을 나타냅니다.
- 미래 발전 로드맵
Black Forest Labs는 구체적인 로드맵을 명시하지 않았지만, 그들의 발표 및 기술 보고서에서 몇 가지 발전 방향을 유추할 수 있습니다:- 오픈소스 모델의 공개 출시: FLUX.1 Kontext [dev]는 현재 비공식 테스트 단계에 있으며, 향후 공개될 계획입니다. 이는 더 광범위한 연구 커뮤니티와 개발자가 이 기술에 접근하고 개선할 수 있도록 할 것입니다.
- KontextBench 기준 테스트의 공개: Black Forest Labs는 향후 KontextBench 기준 테스트를 발표할 예정이며, 이는 이미지 생성 및 편집 모델의 평가를 위한 표준화된 도구가 될 것입니다.
- 다중 편집 안정성 향상: 현재 다중 편집에서 발생하는 시각적 열화 문제를 해결하기 위해 향후 버전은 긴 시퀀스 편집의 안정성을 강화할 것입니다.
- 세계 지식 강화: 세계 지식을 강화하는 것은 맥락 정확성을 높이는 주요 방향이 될 것입니다.
- 비디오 생성으로의 확장: "미래의 생성 미디어를 선도하는" AI 실험실인 Black Forest Labs는 Kontext의 맥락 인식 능력을 비디오 생성 분야로 확장할 가능성이 높습니다. 공식 발표의 마지막은 더 많은 혁신이 곧 다가올 것임을 암시합니다: "우리는 이제 막 시작하는 단계입니다." 이는 Black Forest Labs가 FLUX 모델 시리즈의 발전을 계속 추진할 계획임을 시사하며, 더 높은 수준의 기능, 더 넓은 응용 분야 및 더 깊은 기술 통합을 포함할 수 있습니다.
멋진 리뷰들

Best AI Image Generator: FLUX.1 Kontext 모델의 혁신과 성능
FLUX.1 Kontext 모델은 AI 이미지 생성과 편집의 혁신을 가져오는 새로운 세대의 모델입니다.

최고의 AI 이미지 생성기: Vidu Q1 동영상 생성 모델의 혁신적 발전
Vidu Q1은 텍스트 설명이나 이미지에 따라 고화질의 1080P 비디오를 자동으로 생성하는 최첨단 AI 비디오 생성 모델입니다.

최고의 AI 이미지 생성기: 무료로 고품질 이미지를 생성하는 두 가지 도구
이 글에서는 무료 AI 이미지 생성기인 Raphael AI와 상양의 초단기 그림에 대해 살펴봅니다.