你的位置:开云(中国)Kaiyun·官方网站 > 新闻 > 开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

时间:2026-02-16 13:17 点击:100 次

开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

特出 ControlNet++,让文生图更可控的新框架来了!

腾讯优图、南洋理工、浙大等磋议机构和洽推出DynamicControl,径直将多模态谎言语模子(MLLM)的推理才略集成到文本生成图像(T2I ) )任务中。

况且还冷漠了一种新颖、高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。

实验终结暴露,DynamicControl 大大增强了可控性,且不会焚烧图像质地或图像文本对都。

话未几说,底下来看具体践诺。

DynamicControl:动态要求选定新架构

基于 ControlNet 类模子,之前的职责探索了各样限制信号,举例布局敛迹、分割图和深度图,以决定生成的图像中的空间摆设、物体局势和景深。

此外,该畛域还见证了使用快速工程和交叉阻挠敛迹来进一步完善图像生成的治愈。

不外现存容貌均存在各自的局限性。

比如,商量到一个对象的多种要求,一条澄澈(举例 UniControl、UniControlNet)在试验过程中立时选定一次激活一种要求,如图 1 ( a ) 所示。

这种处理不同视觉要求的才略十分低效,将大大增多试验的计较职守和本领老本。

另一类要领(举例 AnyControl、ControlNet++)使用固定数目(常常为 2 或 4)的要求,并剿袭 MoE 联想或多限制编码器来贬责要求数目变化的问题,如图 1 ( b ) 所示。

关联词,这种固定数目有诡计并莫得从根柢上贬责多要求问题,也莫得商量多要求是否与生成终结相冲破。

诚然这些要领彭胀了受控图像生成的可行性和应用,但在不同要求下增强可控性的了了而全面的要领仍然是一个正在进行的磋议和开发畛域。这突显了在 T2I 扩散模子中集成和优化限制机制以兑现更可靠和更详备的图像合成方面需要束缚翻新。

给定来自袪除主题的多个要求,对于换取的文本领导,不同的要求在神采、纹理、布局,合感性等方面产生不同的终结。

此外,从与源图像的同样度 SSIM 得分来看,不同的要求难以准确生成与输入源图像一致的图像。这也标明不同要求对生成更好图像的孝顺不同,有些要求以致会产生负面影响。

因此,在先前的要领中,仅选定一个或固定数目的要求而不商量它们在生成更接近源图像的图像方面的紧迫性以及每个要求之间的里面关系是次优的。

为了贬责这个问题,磋议冷漠了DynamicControl,这是一个复古多种限制信号动态组合的新框架,它不错自稳健地选定不同数目和类型的要求,如图 1(c)所示。

具体咋作念到的

算法的举座历程如下图所示。

给定多种要求,磋议最初引入双轮回限制器来产生简直的名次分数,动作与 MLLM 团结试验要求评估器的监督信号。

然后,这些名次的要求与来自预试验要求评估器的选定分数由多限制适配器动态编码,以兑现可控的图像生成。

Double-Cycle Controlle

鉴于磋议将多要求可控性看法化为输入要求之间的动态选定,因此使用判别奖励模子来估量这种选定是可行的。

通过量化生成模子的输出,磋议好像依靠这些定量评估来集体增强各样要求限制的优化,以促进更可控的生成过程。

具体来说,给定多个要求和文本领导,磋议最初诳骗预试验的要求生成模子为每个要求生成图像。

然后通过不同的预试验判别模子索要相应的反向要求。

基于这些生成的图像和反向要求,磋议联想了一个双轮回限制器,对输入的多个限制要求进行开动紧迫性评估。该双轮回限制器由两个一致性分数构成,即要求一致性和图像一致性。

(1)要求一致性。对于每个输入要求和生成图像的相应输出要求,磋议优化了要求轮回一致性亏本以得到更好的可控性,其公式为:

这里磋议对扰动图像奉行单步采样,其中 D 是判别奖励模子,用于优化 G 的可控性。L 暗意抽象度量函数,可凭据特定的视觉要求稳健各样具体局势。

这种生动性使其好像凭据不同视觉分析任务的私有要求进行定制,从而增强模子在不同场景中的适用性和有用性。

(2)反向图像一致性。除了要求一致性除外,磋议还剿袭反向图像一致性亏本来保证原始图像与生成的图像同样。

磋议通过最小化生成的图像和源图像之间的像素和语义各异来兑现这少量。给定源图像和生成的图像的 CLIP 镶嵌,亏本界说为:

这种亏本确保模子在应用要求和文本指示时好像古道地回转要求并复返到源图像,通过最小化源图像和生成的图像之间的各异来强制奉行模子。

Condition Evaluator

诚然双轮回限制器不错对各样限制要求进行综合评分,但仍然濒临两个挑战:

(i)使用事先试验的生成模子进行图像合成都会给终结带来较高的不笃定性,这意味着对所剿袭的基础生成模子的依赖性很高。

(ii)源图像在测试过程中不行用,尤其是在用户指定的任务中。为了贬责这个问题,磋议在网络架构中引入了多模态谎言语模子(MLLM)。

如图 3 所示,给定要求 c1、c2、…、cN 和指示 τ,磋议的主要指标是诳骗双周期限制器的得分排序来优化要求的最好排序。

磋议用 N 个新象征"、…、",彭胀了 LLaVA 的原始 LLM 词汇表以暗意生成信息,并将这些象征附加到指示 τ 的末尾。

然后,将要求 c1、c2、…、cN 和重新组织的指示 τ ’输入到谎言语模子 ( VLLM ) LLaV A ( · ; ω ) 中以得到对象征的反应,这些象征被处理以索要相应的掩蔽景象 hi ∈ H,从 VLLM 对输入的暗意中拿获更深层的语义信息。

关联词,这些掩蔽景象主要存在于 LLM 的文本向量空间中,在与扩散模子(尤其是基于 CLIP 文本镶嵌试验的模子)交互时会出现兼容性问题。这种各异可能会遮挡模子之间的有用集成。

商量到这少量,磋议挪动了 Q-Former,以将掩蔽景象细化为与扩散模子兼容的镶嵌 fc。

转化过程暗意为:

轮回优化过程不错表述为:

随后,每个要求的 LLM 预计终结由双轮回限制器的相应排序分数进行监督,从而优化最终的排序名次。该过程暗意为:

多限制适配器动态编码

为了稳健多种动态限制要求的同期应用,作家们翻新性地联想了一个多限制适配器。该适配用具于自稳健地解释复杂的限制信号,从而好像从文本领导和动态空间要求中索要全面的多限制镶嵌。

在得到经过精采预试验的要求评估器后,不错诳骗其广宽的理会才略对总共输入要求进行评分。

从评分要求池中,只好那些达到或越过预界说阈值的要求才会被选中参与后续的 T2I 模子优化。

这种选定性要领确保只好最关连和最高质地的要求才调参与试验过程,从而有可能擢升 T2I 模子的有用性和恶果。

对于阈值拓荒,它不是手动预界说的,也不是在试验集内的所特别据对中保捏一致的。违抗,它被竖立为一个可学习的参数,允许模子自稳健地笃定和治愈各样数据集的阈值。

因此,这种自稳健机制导致动态和各样化的限制要求在数目和类型上都莫得冲破。

这些要求在试验过程中的使用取决于每个数据集的具体特征。这种要领确保试验好像凭据各样数据输入的私有需乞降眇小永别进行量身定制。

实验终结

抽象而言,来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。

其中,不同要求限制和数据集下的可控性比拟如下。

不同要求限制和数据集下的 FID(↓)/ CLIP 分数(↑)比拟如下。

可视化终结也出来了。

回来

在论文中,磋议从定量和定性的角度诠释了现存的专注于可控生成的磋议仍然未能充分诳骗多种限制要求的后劲,导致生成的图像与输入要求不一致。

为了贬责这个问题,磋议引入了 DynamicControl ,它使用高效的要求评估器对要求进行排序,明确优化了多个输入要求和生成的图像之间的一致性,从而将 MLLM 的推理才略集成到 T2I 生成任务中。

此外,磋议还冷漠了一种新颖而高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。

来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。

这为可控视觉生成提供了新的视角。

论文:

https://arxiv.org/abs/2412.03255

表情主页:

https://hithqd.github.io/projects/Dynamiccontrol/

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿践诺‍

附上论文 / 表情主页集中,以及筹商容貌哦

咱们会(尽量)实时修起你

点这里� � 温暖我,牢记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿发达日日再会 ~  

四大顶刊之一的《数学年刊》开云体育(中国)官方网站,认真罗致北大袁新意独作论文。 在困扰数学界多年的Uniform Bogomolov 揣度问题上取得病笃发扬。 值得一提的是,这篇论文还在预印版情状时就已赢得一定援用,据称还在不同的学术会议中被究诘。 这一恶果延续了袁新意在算术几何和丢番图几何边界的恶果,其中"将 Uniform Bogomolov 问题更始为诠释某个直线丛的算术大性"等翻新时势,更是被评价为给关联边界的接头提供了全新的视角和器具。 合资算术与几何的 Bogomolov 揣度
特出 ControlNet++,让文生图更可控的新框架来了! 腾讯优图、南洋理工、浙大等磋议机构和洽推出DynamicControl,径直将多模态谎言语模子(MLLM)的推理才略集成到文本生成图像(T2I ) )任务中。 况且还冷漠了一种新颖、高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。 实验终结暴露,DynamicControl 大大增强了可控性,且不会焚烧图像质地或图像文本对都。 话未几说,底下来看具体践诺。 DynamicControl:动态要求选定新架构 基
保温杯是许多家庭的生存必需品,小编家亦然,从小的到老的,东说念主手一个! 尤其孩子,大冬天的,家里用、学校也用,真的一天也离不开。 不外,保温杯虽好,选不对、用不对,王人可能会出危急。之前一女孩就因为使用不当,致使保温杯"爆炸",形成眼球冲破。 今天小编重心提示全球几件事: · 保温杯"猫腻"多,真真假假要分清 · 是不是委果的食等第保温杯,看准这 1 点 · 保温杯也有使用禁忌!用错径直进病院 详备内容,我们往下看。今天的著作热烈漠视转发到家庭群,提示家里东说念主 ~ 01 保温杯材质有"猫
每到年末,在温馨团员的氛围中,九故十亲围坐一堂开云体育,共享夙昔一年的一丝一滴。这时候,比起推杯换盏的牛饮,一壶清茶显然更顺应当代东说念主追求健康生涯的理念。茶叶,这片神奇的东方叶子,不仅承载着深厚的文化底蕴,已经养生的小奥秘,是中国传统习俗中不行或缺的一部分。在这个年终,给长者奉上一份荒谬的礼物——碧云泉N7煮茶净饮机,让健康与爱意跟着褭褭茶香流转,成为约会中最温馨的气象线。 智能煮茶,一键传承茶文化 关于长者们来说,茶不单是是一种饮品,更是一种生涯的艺术和养生的贤慧。碧云泉N7煮茶净饮机,
2025年开云(中国)Kaiyun·官方网站,南京将迎来第七届暖锅食材用品博览会。这一嘉会定于2月24日至26日在南京国外博览中心举办,为暖锅行业的新年开启注入了一股热流。本届展会不仅是行业内的一场盛宴,更是暖锅意思意思者和行业从业者不成错过的进攻步履。 展会领域浩大,瞻望展览面积将达到80000平常米,集聚跳跃2000个参展品牌。瞻望将有跳跃100000名专科不雅众王人聚一堂,共同见证这场暖锅行业的精彩已而。不管是簇新蔬菜依然精选肉类,从纯正豆腐到别国海鲜,每一种食材都将在展会上亮相,昂扬最
“沛沛,我思吃沛县的冷面了” “我在山西确切非常思念沛县的好意思食” “沛沛,我思家了” 这些留言,团团皆看到啦…… 张开剩余70% 叮!您有一封来自沛县团县委的信 请持重查收 点此亲启 致诸君沛籍在外学子 亲爱的沛籍同学们: 见字如面,展信佳! 怀着对常识的渴慕和对改日的憧憬,你们背上行囊、奔赴远处、走进高校,但不管你们走到那里,家乡遥远记挂着你们,关注着你们的成长。 这些年,家乡变化很大,在寰球1000多个县城的竞相发展中,经济竞争力跃居第40位,产业发展按序坚实、百废具兴,新动力、新材料
贯彻落实国度金融监督束缚总局山东监管局(鲁金办发【2024】30号)对于开展监管报表一表通试点职责的奉告条件,泰安银行雕刻前行,于近日得手完成“一表通”报送系统试报送职责,成为山东省内首家竣事该系统上线的城市营业银行,这记号着泰安银行在金融监管手艺改造和数据报送智商方面得到了打破性进展。 “一表通”系统,看成国度金融监督束缚总局倾力打造的前沿监管数据报送体系,旨在融合监管数据表率、优化加工逻辑,强化数据集成与穿透式监管智商,构建与“五大监管”体系相匹配的新式监管数据架构。自2024年6月被山东
2023年召开的中央金融责任会议提倡作念好科技金融、绿色金融、普惠金融、待业金融、数字金融五篇大著述,对数字金融高质料发展提倡了新条目。在新期间的波浪中,数字期间的交融鼓励了数字中国的竖立,引颈着经济增长的新旅途。 中航证券围绕金融与数字期间的有机交融,鼓励业务数字化、处分数字化和数字文化竖立,效率进步金融服求实体经济质效,强化系统性风险防控,束缚得志经济社会发展和东谈主民天下金融就业需求,运用科技的更始为公司提供了新的业务模式和处分场景,通过科技的赋能实践出更多得志客户需求的居品和就业,深度
回到顶部
服务热线
官方网站:www.x7kzw.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:87515064408
邮箱:6232ffbc@outlook.com
地址:新闻科技园2396号
关注公众号

Powered by 开云(中国)Kaiyun·官方网站 RSS地图 HTML地图


开云(中国)Kaiyun·官方网站-开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站