你的位置:开云(中国)Kaiyun·官方网站 > 新闻 > 开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

时间:2026-02-16 13:17 点击:100 次

开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

特出 ControlNet++,让文生图更可控的新框架来了!

腾讯优图、南洋理工、浙大等磋议机构和洽推出DynamicControl,径直将多模态谎言语模子(MLLM)的推理才略集成到文本生成图像(T2I ) )任务中。

况且还冷漠了一种新颖、高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。

实验终结暴露,DynamicControl 大大增强了可控性,且不会焚烧图像质地或图像文本对都。

话未几说,底下来看具体践诺。

DynamicControl:动态要求选定新架构

基于 ControlNet 类模子,之前的职责探索了各样限制信号,举例布局敛迹、分割图和深度图,以决定生成的图像中的空间摆设、物体局势和景深。

此外,该畛域还见证了使用快速工程和交叉阻挠敛迹来进一步完善图像生成的治愈。

不外现存容貌均存在各自的局限性。

比如,商量到一个对象的多种要求,一条澄澈(举例 UniControl、UniControlNet)在试验过程中立时选定一次激活一种要求,如图 1 ( a ) 所示。

这种处理不同视觉要求的才略十分低效,将大大增多试验的计较职守和本领老本。

另一类要领(举例 AnyControl、ControlNet++)使用固定数目(常常为 2 或 4)的要求,并剿袭 MoE 联想或多限制编码器来贬责要求数目变化的问题,如图 1 ( b ) 所示。

关联词,这种固定数目有诡计并莫得从根柢上贬责多要求问题,也莫得商量多要求是否与生成终结相冲破。

诚然这些要领彭胀了受控图像生成的可行性和应用,但在不同要求下增强可控性的了了而全面的要领仍然是一个正在进行的磋议和开发畛域。这突显了在 T2I 扩散模子中集成和优化限制机制以兑现更可靠和更详备的图像合成方面需要束缚翻新。

给定来自袪除主题的多个要求,对于换取的文本领导,不同的要求在神采、纹理、布局,合感性等方面产生不同的终结。

此外,从与源图像的同样度 SSIM 得分来看,不同的要求难以准确生成与输入源图像一致的图像。这也标明不同要求对生成更好图像的孝顺不同,有些要求以致会产生负面影响。

因此,在先前的要领中,仅选定一个或固定数目的要求而不商量它们在生成更接近源图像的图像方面的紧迫性以及每个要求之间的里面关系是次优的。

为了贬责这个问题,磋议冷漠了DynamicControl,这是一个复古多种限制信号动态组合的新框架,它不错自稳健地选定不同数目和类型的要求,如图 1(c)所示。

具体咋作念到的

算法的举座历程如下图所示。

给定多种要求,磋议最初引入双轮回限制器来产生简直的名次分数,动作与 MLLM 团结试验要求评估器的监督信号。

然后,这些名次的要求与来自预试验要求评估器的选定分数由多限制适配器动态编码,以兑现可控的图像生成。

Double-Cycle Controlle

鉴于磋议将多要求可控性看法化为输入要求之间的动态选定,因此使用判别奖励模子来估量这种选定是可行的。

通过量化生成模子的输出,磋议好像依靠这些定量评估来集体增强各样要求限制的优化,以促进更可控的生成过程。

具体来说,给定多个要求和文本领导,磋议最初诳骗预试验的要求生成模子为每个要求生成图像。

然后通过不同的预试验判别模子索要相应的反向要求。

基于这些生成的图像和反向要求,磋议联想了一个双轮回限制器,对输入的多个限制要求进行开动紧迫性评估。该双轮回限制器由两个一致性分数构成,即要求一致性和图像一致性。

(1)要求一致性。对于每个输入要求和生成图像的相应输出要求,磋议优化了要求轮回一致性亏本以得到更好的可控性,其公式为:

这里磋议对扰动图像奉行单步采样,其中 D 是判别奖励模子,用于优化 G 的可控性。L 暗意抽象度量函数,可凭据特定的视觉要求稳健各样具体局势。

这种生动性使其好像凭据不同视觉分析任务的私有要求进行定制,从而增强模子在不同场景中的适用性和有用性。

(2)反向图像一致性。除了要求一致性除外,磋议还剿袭反向图像一致性亏本来保证原始图像与生成的图像同样。

磋议通过最小化生成的图像和源图像之间的像素和语义各异来兑现这少量。给定源图像和生成的图像的 CLIP 镶嵌,亏本界说为:

这种亏本确保模子在应用要求和文本指示时好像古道地回转要求并复返到源图像,通过最小化源图像和生成的图像之间的各异来强制奉行模子。

Condition Evaluator

诚然双轮回限制器不错对各样限制要求进行综合评分,但仍然濒临两个挑战:

(i)使用事先试验的生成模子进行图像合成都会给终结带来较高的不笃定性,这意味着对所剿袭的基础生成模子的依赖性很高。

(ii)源图像在测试过程中不行用,尤其是在用户指定的任务中。为了贬责这个问题,磋议在网络架构中引入了多模态谎言语模子(MLLM)。

如图 3 所示,给定要求 c1、c2、…、cN 和指示 τ,磋议的主要指标是诳骗双周期限制器的得分排序来优化要求的最好排序。

磋议用 N 个新象征"、…、",彭胀了 LLaVA 的原始 LLM 词汇表以暗意生成信息,并将这些象征附加到指示 τ 的末尾。

然后,将要求 c1、c2、…、cN 和重新组织的指示 τ ’输入到谎言语模子 ( VLLM ) LLaV A ( · ; ω ) 中以得到对象征的反应,这些象征被处理以索要相应的掩蔽景象 hi ∈ H,从 VLLM 对输入的暗意中拿获更深层的语义信息。

关联词,这些掩蔽景象主要存在于 LLM 的文本向量空间中,在与扩散模子(尤其是基于 CLIP 文本镶嵌试验的模子)交互时会出现兼容性问题。这种各异可能会遮挡模子之间的有用集成。

商量到这少量,磋议挪动了 Q-Former,以将掩蔽景象细化为与扩散模子兼容的镶嵌 fc。

转化过程暗意为:

轮回优化过程不错表述为:

随后,每个要求的 LLM 预计终结由双轮回限制器的相应排序分数进行监督,从而优化最终的排序名次。该过程暗意为:

多限制适配器动态编码

为了稳健多种动态限制要求的同期应用,作家们翻新性地联想了一个多限制适配器。该适配用具于自稳健地解释复杂的限制信号,从而好像从文本领导和动态空间要求中索要全面的多限制镶嵌。

在得到经过精采预试验的要求评估器后,不错诳骗其广宽的理会才略对总共输入要求进行评分。

从评分要求池中,只好那些达到或越过预界说阈值的要求才会被选中参与后续的 T2I 模子优化。

这种选定性要领确保只好最关连和最高质地的要求才调参与试验过程,从而有可能擢升 T2I 模子的有用性和恶果。

对于阈值拓荒,它不是手动预界说的,也不是在试验集内的所特别据对中保捏一致的。违抗,它被竖立为一个可学习的参数,允许模子自稳健地笃定和治愈各样数据集的阈值。

因此,这种自稳健机制导致动态和各样化的限制要求在数目和类型上都莫得冲破。

这些要求在试验过程中的使用取决于每个数据集的具体特征。这种要领确保试验好像凭据各样数据输入的私有需乞降眇小永别进行量身定制。

实验终结

抽象而言,来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。

其中,不同要求限制和数据集下的可控性比拟如下。

不同要求限制和数据集下的 FID(↓)/ CLIP 分数(↑)比拟如下。

可视化终结也出来了。

回来

在论文中,磋议从定量和定性的角度诠释了现存的专注于可控生成的磋议仍然未能充分诳骗多种限制要求的后劲,导致生成的图像与输入要求不一致。

为了贬责这个问题,磋议引入了 DynamicControl ,它使用高效的要求评估器对要求进行排序,明确优化了多个输入要求和生成的图像之间的一致性,从而将 MLLM 的推理才略集成到 T2I 生成任务中。

此外,磋议还冷漠了一种新颖而高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。

来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。

这为可控视觉生成提供了新的视角。

论文:

https://arxiv.org/abs/2412.03255

表情主页:

https://hithqd.github.io/projects/Dynamiccontrol/

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿践诺‍

附上论文 / 表情主页集中,以及筹商容貌哦

咱们会(尽量)实时修起你

点这里� � 温暖我,牢记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿发达日日再会 ~  

新华财经塔什干2月2日电(记者李奥)记者日前造访位于乌兹别克斯坦吉扎克州的扎法拉巴德220千伏数字化变电站时势时了解到,由中国企业承建的该国首个数字化变电站照旧完成诞生。 据时势司理先容,上海电气集团股份有限公司(简称“上海电气”)于2021年中标该时势。四肢中国和乌兹别克斯坦动力合作的又一后果,此时势获得乌方各级部门高度深爱。 据悉,数字化变电站时势标中枢开荒是两台250兆伏安自耦变压器,由上海电气自主研发坐褥,将从上司电网接入的220千伏电压降压至110千伏,再输送至当地用户。 据先容欧洲
特朗普如故对中国脱手了欧洲杯体育。 他2月1日签署行政令,对入口自中国的商品加征10%的关税,同期也向邻国墨西哥、加拿大挥动关税大棒。 中海社交部、商务部2月2日回话称,中方对此热烈不悦,坚决反对,将给与反制法子调理刚直职权。 特朗普为何对华加征关税?此举将产生哪些影响?寰球又作何反应? “无东说念主能阻” 白宫1日示意,对悉数入口自中国的商品,好意思国将在现存关税基础上加征10%的关税。 好意思国还将对入口自墨西哥、加拿大两国的商品加征25%的关税,其中对加拿大动力家具的加税幅度为10%。
中新网2月2日电 据好意思国有线电视新闻网(CNN)2月1日报谈,最新文献表露,好意思国企业家马斯克在2024年好意思国总统大选中的破耗首先了2.9亿好意思元。 据报谈,1月31日提交给好意思国联邦选举委员会的文献表露,马斯克向其资助的好意思国“政事步履委员会”(PAC)捐钱约1120万好意思元,这使得他的总政事捐赠金额首先了2.9亿好意思元。 报谈称,马斯克在2024年的捐钱主如若为了提拔特朗普,约有2.5亿好意思元资金流向了好意思国“政事步履委员会”(PAC)。此外,他还向其它几个超等“政
(原标题:两个黑匣子均被找到) 当地技能1月30日,好意思国国度运载安全委员会说明,拜谒东说念主员已找到29日晚间在华盛顿里根国度机场近邻发生撞机坠河事故客机的两个黑匣子。 好意思国国度运载安全委员会默示,当今黑匣子正在该机构的实践室内进行评估。 飞机一般装有两个黑匣子,辩认为飘零数据记载器和驾驶舱语音记载器。好意思国国度运载安全委员会此前默示,黑匣子已泡水,但应该简略进行数据分析。 好意思国东部技能1月29日晚,好意思国太平洋西南航空公司一架载有64东说念主的庞巴迪喷气式客机在华盛顿里根国度
(原标题:苹果:大模子 “瘦身”开云体育,硬件成终末赢家?) 苹果 (AAPL.O) 北京本领 2025 年 1 月 31 日凌晨,好意思股盘后发布 2025 财年第一季度财报(法例 2024 年 12 月),重点如下: 1、全体事迹:收入利润,达到商场预期。本季度苹果公司杀青营收 1243 亿好意思元,同比增长 4%,得当商场一致预期(1242.3 亿好意思元)。公司本季度收入端的晋升,主要受益于 Mac、iPad 及软件业务的增长带动。苹果公司毛利率 46.9%,同比增多 1pct,略好于
(原标题:苹果:络续旁边夹杂模子来优化成本和性能(FY25Q1 电话会)) 苹果 (AAPL.O) 北京时间 2025 年 1 月 31 日凌晨,好意思股盘后发布 2025 财年第一季度财报(限制 2024 年 12 月),电话会重点如下: 以下为苹果 2025 财年第一季度功绩证据电话会纪要,财报解读请移步《苹果:大模子 “瘦身”,硬件成终末赢家?》 一、$苹果(AAPL.US) 财报中枢信息归来: 二、苹果财报电话会详备本色 2.1、高管层述说中枢信息: 1.财务功绩概览 总体营收:202
国内方面,昨日,黑龙江、吉林等地部分地区出现小到中雪。30日起中东部地区有雨雪天气经过,陕西、河南、湖北及西藏等地部分地区有彰着雨雪天气开云体育,关怀对春运交通、步调农业、动力供应等影响;近期我国西藏、青海等地风力较大,关怀大风影响;琼州海峡、雷州半岛关怀大雾顽皮见度天气对航运影响。 国内将来三天具体预告 1月30日08时至31日08时,内蒙古东北部、黑龙江、新疆北部和南疆西部山区、西藏东南部、青海南部、甘肃东南部、陕西南部等地部分地区有小到中雪或雨夹雪,其中,新疆北疆北部和沿天平地区以及陕西
▶ 2月起推行这些新规,事关你我! 2月起推行多项新规。新国标对食物添加剂作出修改,更好保险舌尖上的安全;食用油运载关系强制性国标将实施;最新法则解说经管公众眷注的房产分割等婚配家庭纠纷问题。笃定 ▶ 解读来了!东部战区春节海报,清楚哪些神秘? 大年月吉,自若军东部战区发布短视频、系列海报《以武止戈》,展示战区官兵遵照战位,看护万家团圆,遵照初心,护佑东说念主民幸福,遵照职责,捍卫国度主权和邦畿无缺的决心相识。笃定 ▶ 单日票房17.78亿!大年月吉票房主说念主次双双破记录 据国度电影专资办统
回到顶部
服务热线
官方网站:www.x7kzw.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:87515064408
邮箱:6232ffbc@outlook.com
地址:新闻科技园2396号
关注公众号

Powered by 开云(中国)Kaiyun·官方网站 RSS地图 HTML地图


开云(中国)Kaiyun·官方网站-开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站