
特出 ControlNet++,让文生图更可控的新框架来了!
腾讯优图、南洋理工、浙大等磋议机构和洽推出DynamicControl,径直将多模态谎言语模子(MLLM)的推理才略集成到文本生成图像(T2I ) )任务中。

况且还冷漠了一种新颖、高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。
实验终结暴露,DynamicControl 大大增强了可控性,且不会焚烧图像质地或图像文本对都。
话未几说,底下来看具体践诺。
DynamicControl:动态要求选定新架构
基于 ControlNet 类模子,之前的职责探索了各样限制信号,举例布局敛迹、分割图和深度图,以决定生成的图像中的空间摆设、物体局势和景深。
此外,该畛域还见证了使用快速工程和交叉阻挠敛迹来进一步完善图像生成的治愈。
不外现存容貌均存在各自的局限性。
比如,商量到一个对象的多种要求,一条澄澈(举例 UniControl、UniControlNet)在试验过程中立时选定一次激活一种要求,如图 1 ( a ) 所示。
这种处理不同视觉要求的才略十分低效,将大大增多试验的计较职守和本领老本。
另一类要领(举例 AnyControl、ControlNet++)使用固定数目(常常为 2 或 4)的要求,并剿袭 MoE 联想或多限制编码器来贬责要求数目变化的问题,如图 1 ( b ) 所示。
关联词,这种固定数目有诡计并莫得从根柢上贬责多要求问题,也莫得商量多要求是否与生成终结相冲破。
诚然这些要领彭胀了受控图像生成的可行性和应用,但在不同要求下增强可控性的了了而全面的要领仍然是一个正在进行的磋议和开发畛域。这突显了在 T2I 扩散模子中集成和优化限制机制以兑现更可靠和更详备的图像合成方面需要束缚翻新。
给定来自袪除主题的多个要求,对于换取的文本领导,不同的要求在神采、纹理、布局,合感性等方面产生不同的终结。
此外,从与源图像的同样度 SSIM 得分来看,不同的要求难以准确生成与输入源图像一致的图像。这也标明不同要求对生成更好图像的孝顺不同,有些要求以致会产生负面影响。
因此,在先前的要领中,仅选定一个或固定数目的要求而不商量它们在生成更接近源图像的图像方面的紧迫性以及每个要求之间的里面关系是次优的。
为了贬责这个问题,磋议冷漠了DynamicControl,这是一个复古多种限制信号动态组合的新框架,它不错自稳健地选定不同数目和类型的要求,如图 1(c)所示。

具体咋作念到的
算法的举座历程如下图所示。
给定多种要求,磋议最初引入双轮回限制器来产生简直的名次分数,动作与 MLLM 团结试验要求评估器的监督信号。
然后,这些名次的要求与来自预试验要求评估器的选定分数由多限制适配器动态编码,以兑现可控的图像生成。

Double-Cycle Controlle
鉴于磋议将多要求可控性看法化为输入要求之间的动态选定,因此使用判别奖励模子来估量这种选定是可行的。
通过量化生成模子的输出,磋议好像依靠这些定量评估来集体增强各样要求限制的优化,以促进更可控的生成过程。
具体来说,给定多个要求和文本领导,磋议最初诳骗预试验的要求生成模子为每个要求生成图像。
然后通过不同的预试验判别模子索要相应的反向要求。
基于这些生成的图像和反向要求,磋议联想了一个双轮回限制器,对输入的多个限制要求进行开动紧迫性评估。该双轮回限制器由两个一致性分数构成,即要求一致性和图像一致性。
(1)要求一致性。对于每个输入要求和生成图像的相应输出要求,磋议优化了要求轮回一致性亏本以得到更好的可控性,其公式为:

这里磋议对扰动图像奉行单步采样,其中 D 是判别奖励模子,用于优化 G 的可控性。L 暗意抽象度量函数,可凭据特定的视觉要求稳健各样具体局势。
这种生动性使其好像凭据不同视觉分析任务的私有要求进行定制,从而增强模子在不同场景中的适用性和有用性。
(2)反向图像一致性。除了要求一致性除外,磋议还剿袭反向图像一致性亏本来保证原始图像与生成的图像同样。
磋议通过最小化生成的图像和源图像之间的像素和语义各异来兑现这少量。给定源图像和生成的图像的 CLIP 镶嵌,亏本界说为:

这种亏本确保模子在应用要求和文本指示时好像古道地回转要求并复返到源图像,通过最小化源图像和生成的图像之间的各异来强制奉行模子。
Condition Evaluator
诚然双轮回限制器不错对各样限制要求进行综合评分,但仍然濒临两个挑战:
(i)使用事先试验的生成模子进行图像合成都会给终结带来较高的不笃定性,这意味着对所剿袭的基础生成模子的依赖性很高。
(ii)源图像在测试过程中不行用,尤其是在用户指定的任务中。为了贬责这个问题,磋议在网络架构中引入了多模态谎言语模子(MLLM)。
如图 3 所示,给定要求 c1、c2、…、cN 和指示 τ,磋议的主要指标是诳骗双周期限制器的得分排序来优化要求的最好排序。
磋议用 N 个新象征"、…、",彭胀了 LLaVA 的原始 LLM 词汇表以暗意生成信息,并将这些象征附加到指示 τ 的末尾。
然后,将要求 c1、c2、…、cN 和重新组织的指示 τ ’输入到谎言语模子 ( VLLM ) LLaV A ( · ; ω ) 中以得到对象征的反应,这些象征被处理以索要相应的掩蔽景象 hi ∈ H,从 VLLM 对输入的暗意中拿获更深层的语义信息。
关联词,这些掩蔽景象主要存在于 LLM 的文本向量空间中,在与扩散模子(尤其是基于 CLIP 文本镶嵌试验的模子)交互时会出现兼容性问题。这种各异可能会遮挡模子之间的有用集成。
商量到这少量,磋议挪动了 Q-Former,以将掩蔽景象细化为与扩散模子兼容的镶嵌 fc。
转化过程暗意为:

轮回优化过程不错表述为:

随后,每个要求的 LLM 预计终结由双轮回限制器的相应排序分数进行监督,从而优化最终的排序名次。该过程暗意为:

多限制适配器动态编码
为了稳健多种动态限制要求的同期应用,作家们翻新性地联想了一个多限制适配器。该适配用具于自稳健地解释复杂的限制信号,从而好像从文本领导和动态空间要求中索要全面的多限制镶嵌。
在得到经过精采预试验的要求评估器后,不错诳骗其广宽的理会才略对总共输入要求进行评分。
从评分要求池中,只好那些达到或越过预界说阈值的要求才会被选中参与后续的 T2I 模子优化。
这种选定性要领确保只好最关连和最高质地的要求才调参与试验过程,从而有可能擢升 T2I 模子的有用性和恶果。
对于阈值拓荒,它不是手动预界说的,也不是在试验集内的所特别据对中保捏一致的。违抗,它被竖立为一个可学习的参数,允许模子自稳健地笃定和治愈各样数据集的阈值。
因此,这种自稳健机制导致动态和各样化的限制要求在数目和类型上都莫得冲破。
这些要求在试验过程中的使用取决于每个数据集的具体特征。这种要领确保试验好像凭据各样数据输入的私有需乞降眇小永别进行量身定制。
实验终结
抽象而言,来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。
其中,不同要求限制和数据集下的可控性比拟如下。

不同要求限制和数据集下的 FID(↓)/ CLIP 分数(↑)比拟如下。

可视化终结也出来了。

回来
在论文中,磋议从定量和定性的角度诠释了现存的专注于可控生成的磋议仍然未能充分诳骗多种限制要求的后劲,导致生成的图像与输入要求不一致。
为了贬责这个问题,磋议引入了 DynamicControl ,它使用高效的要求评估器对要求进行排序,明确优化了多个输入要求和生成的图像之间的一致性,从而将 MLLM 的推理才略集成到 T2I 生成任务中。
此外,磋议还冷漠了一种新颖而高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。
来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。
这为可控视觉生成提供了新的视角。
论文:
https://arxiv.org/abs/2412.03255
表情主页:
https://hithqd.github.io/projects/Dynamiccontrol/
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿践诺
附上论文 / 表情主页集中,以及筹商容貌哦
咱们会(尽量)实时修起你

点这里� � 温暖我,牢记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿发达日日再会 ~