你的位置:开云(中国)Kaiyun·官方网站 > 新闻 > 开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

时间:2026-02-16 13:17 点击:100 次

开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站

特出 ControlNet++,让文生图更可控的新框架来了!

腾讯优图、南洋理工、浙大等磋议机构和洽推出DynamicControl,径直将多模态谎言语模子(MLLM)的推理才略集成到文本生成图像(T2I ) )任务中。

况且还冷漠了一种新颖、高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。

实验终结暴露,DynamicControl 大大增强了可控性,且不会焚烧图像质地或图像文本对都。

话未几说,底下来看具体践诺。

DynamicControl:动态要求选定新架构

基于 ControlNet 类模子,之前的职责探索了各样限制信号,举例布局敛迹、分割图和深度图,以决定生成的图像中的空间摆设、物体局势和景深。

此外,该畛域还见证了使用快速工程和交叉阻挠敛迹来进一步完善图像生成的治愈。

不外现存容貌均存在各自的局限性。

比如,商量到一个对象的多种要求,一条澄澈(举例 UniControl、UniControlNet)在试验过程中立时选定一次激活一种要求,如图 1 ( a ) 所示。

这种处理不同视觉要求的才略十分低效,将大大增多试验的计较职守和本领老本。

另一类要领(举例 AnyControl、ControlNet++)使用固定数目(常常为 2 或 4)的要求,并剿袭 MoE 联想或多限制编码器来贬责要求数目变化的问题,如图 1 ( b ) 所示。

关联词,这种固定数目有诡计并莫得从根柢上贬责多要求问题,也莫得商量多要求是否与生成终结相冲破。

诚然这些要领彭胀了受控图像生成的可行性和应用,但在不同要求下增强可控性的了了而全面的要领仍然是一个正在进行的磋议和开发畛域。这突显了在 T2I 扩散模子中集成和优化限制机制以兑现更可靠和更详备的图像合成方面需要束缚翻新。

给定来自袪除主题的多个要求,对于换取的文本领导,不同的要求在神采、纹理、布局,合感性等方面产生不同的终结。

此外,从与源图像的同样度 SSIM 得分来看,不同的要求难以准确生成与输入源图像一致的图像。这也标明不同要求对生成更好图像的孝顺不同,有些要求以致会产生负面影响。

因此,在先前的要领中,仅选定一个或固定数目的要求而不商量它们在生成更接近源图像的图像方面的紧迫性以及每个要求之间的里面关系是次优的。

为了贬责这个问题,磋议冷漠了DynamicControl,这是一个复古多种限制信号动态组合的新框架,它不错自稳健地选定不同数目和类型的要求,如图 1(c)所示。

具体咋作念到的

算法的举座历程如下图所示。

给定多种要求,磋议最初引入双轮回限制器来产生简直的名次分数,动作与 MLLM 团结试验要求评估器的监督信号。

然后,这些名次的要求与来自预试验要求评估器的选定分数由多限制适配器动态编码,以兑现可控的图像生成。

Double-Cycle Controlle

鉴于磋议将多要求可控性看法化为输入要求之间的动态选定,因此使用判别奖励模子来估量这种选定是可行的。

通过量化生成模子的输出,磋议好像依靠这些定量评估来集体增强各样要求限制的优化,以促进更可控的生成过程。

具体来说,给定多个要求和文本领导,磋议最初诳骗预试验的要求生成模子为每个要求生成图像。

然后通过不同的预试验判别模子索要相应的反向要求。

基于这些生成的图像和反向要求,磋议联想了一个双轮回限制器,对输入的多个限制要求进行开动紧迫性评估。该双轮回限制器由两个一致性分数构成,即要求一致性和图像一致性。

(1)要求一致性。对于每个输入要求和生成图像的相应输出要求,磋议优化了要求轮回一致性亏本以得到更好的可控性,其公式为:

这里磋议对扰动图像奉行单步采样,其中 D 是判别奖励模子,用于优化 G 的可控性。L 暗意抽象度量函数,可凭据特定的视觉要求稳健各样具体局势。

这种生动性使其好像凭据不同视觉分析任务的私有要求进行定制,从而增强模子在不同场景中的适用性和有用性。

(2)反向图像一致性。除了要求一致性除外,磋议还剿袭反向图像一致性亏本来保证原始图像与生成的图像同样。

磋议通过最小化生成的图像和源图像之间的像素和语义各异来兑现这少量。给定源图像和生成的图像的 CLIP 镶嵌,亏本界说为:

这种亏本确保模子在应用要求和文本指示时好像古道地回转要求并复返到源图像,通过最小化源图像和生成的图像之间的各异来强制奉行模子。

Condition Evaluator

诚然双轮回限制器不错对各样限制要求进行综合评分,但仍然濒临两个挑战:

(i)使用事先试验的生成模子进行图像合成都会给终结带来较高的不笃定性,这意味着对所剿袭的基础生成模子的依赖性很高。

(ii)源图像在测试过程中不行用,尤其是在用户指定的任务中。为了贬责这个问题,磋议在网络架构中引入了多模态谎言语模子(MLLM)。

如图 3 所示,给定要求 c1、c2、…、cN 和指示 τ,磋议的主要指标是诳骗双周期限制器的得分排序来优化要求的最好排序。

磋议用 N 个新象征"、…、",彭胀了 LLaVA 的原始 LLM 词汇表以暗意生成信息,并将这些象征附加到指示 τ 的末尾。

然后,将要求 c1、c2、…、cN 和重新组织的指示 τ ’输入到谎言语模子 ( VLLM ) LLaV A ( · ; ω ) 中以得到对象征的反应,这些象征被处理以索要相应的掩蔽景象 hi ∈ H,从 VLLM 对输入的暗意中拿获更深层的语义信息。

关联词,这些掩蔽景象主要存在于 LLM 的文本向量空间中,在与扩散模子(尤其是基于 CLIP 文本镶嵌试验的模子)交互时会出现兼容性问题。这种各异可能会遮挡模子之间的有用集成。

商量到这少量,磋议挪动了 Q-Former,以将掩蔽景象细化为与扩散模子兼容的镶嵌 fc。

转化过程暗意为:

轮回优化过程不错表述为:

随后,每个要求的 LLM 预计终结由双轮回限制器的相应排序分数进行监督,从而优化最终的排序名次。该过程暗意为:

多限制适配器动态编码

为了稳健多种动态限制要求的同期应用,作家们翻新性地联想了一个多限制适配器。该适配用具于自稳健地解释复杂的限制信号,从而好像从文本领导和动态空间要求中索要全面的多限制镶嵌。

在得到经过精采预试验的要求评估器后,不错诳骗其广宽的理会才略对总共输入要求进行评分。

从评分要求池中,只好那些达到或越过预界说阈值的要求才会被选中参与后续的 T2I 模子优化。

这种选定性要领确保只好最关连和最高质地的要求才调参与试验过程,从而有可能擢升 T2I 模子的有用性和恶果。

对于阈值拓荒,它不是手动预界说的,也不是在试验集内的所特别据对中保捏一致的。违抗,它被竖立为一个可学习的参数,允许模子自稳健地笃定和治愈各样数据集的阈值。

因此,这种自稳健机制导致动态和各样化的限制要求在数目和类型上都莫得冲破。

这些要求在试验过程中的使用取决于每个数据集的具体特征。这种要领确保试验好像凭据各样数据输入的私有需乞降眇小永别进行量身定制。

实验终结

抽象而言,来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。

其中,不同要求限制和数据集下的可控性比拟如下。

不同要求限制和数据集下的 FID(↓)/ CLIP 分数(↑)比拟如下。

可视化终结也出来了。

回来

在论文中,磋议从定量和定性的角度诠释了现存的专注于可控生成的磋议仍然未能充分诳骗多种限制要求的后劲,导致生成的图像与输入要求不一致。

为了贬责这个问题,磋议引入了 DynamicControl ,它使用高效的要求评估器对要求进行排序,明确优化了多个输入要求和生成的图像之间的一致性,从而将 MLLM 的推理才略集成到 T2I 生成任务中。

此外,磋议还冷漠了一种新颖而高效的多限制适配器,不错自稳健地选定不同的要求,从而兑现动态多限制对都。

来自各样要求限制的实验终结标明,DynamicControl 大大增强了可控性,而不会焚烧图像质地或图像文本对都。

这为可控视觉生成提供了新的视角。

论文:

https://arxiv.org/abs/2412.03255

表情主页:

https://hithqd.github.io/projects/Dynamiccontrol/

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿践诺‍

附上论文 / 表情主页集中,以及筹商容貌哦

咱们会(尽量)实时修起你

点这里� � 温暖我,牢记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿发达日日再会 ~  

10年胃病患者的懊悔:每天半根蒸山药,3周后胃镜论述惊呆医师!——张锡纯百年前已揭秘:胃黏膜的“黄金修补匠”,藏在黄河垆土中! 一、十年抽噎:从胃溃疡到萎缩性胃炎,我差点踏上癌变之路! **38岁枢纽员自述**: - **2014年**:加班熬夜+麻辣外卖,胃镜闪现“胡闹性胃炎”,吃奥好意思拉唑暂缓; - **2019年**:药效收缩,胃痛夜夜难眠,活检教导“肠上皮化生”(癌前病变); - **2023年**:胃酸倒流灼喉,医师冷言:“再发展即是胃癌!” **触目惊心的胃镜对比**: 左图:胃
宝子们 三伏天的“养生 buff”已上线 齐说“冬病夏治正那时” 今天就来唠唠 中医界的“夏季戒指”疗法 ——三伏灸 这可不是技艺税 而是的确在实的 健康“养生密码” 伸开剩余90% 号称三伏天里给身体 “一键升级”的超强攻略 三伏灸是啥 01 三伏灸源自中医"天东说念主相应"的表面,讹诈三伏天阳气最盛、东说念主体经络气血畅达的特色,通过艾灸特定穴位,将艾草的温热之力与药效渗入进体内,达到温通经络、斥逐寒湿、扶正固本的后果。这种疗法就像给身体"充电",不仅能改善虚寒性疾病,还能提高全体免疫力,
科图想象领有国度高新技巧企业,确立工程想象甲级天禀,城乡有野心编制乙级天禀开yun体育网,动作医康养产业全经由服务领军企业,在医养斡旋想象/康养想象/康养文旅想象/病院想象/养老院想象/体检中心想象/专科病院想象/康复病院想象/CCRC社区想象/CCKC社区想象等限制,在国内落地了广大案例,并得回了海外上广大分量级奖项。 在科图想象,学习永恒被视为企业发展的中枢能源。如今,跟着社会需求的多元化与细致化,养老询查筹谋业务以及康养抗敏运营形貌成为了行业内备受防卫的焦点限制。本期科图大讲堂聚焦于《养
好的,我帮你把著作改写一遍,保持答应的同期增多细节描绘,字数变化不大: --- 学习五千年中原历史,细细试吃其中的各式东谈主生味谈;了解天命,模仿古今。本文为苏苏鉴史原创,感谢世界的点赞、撑持与关心! 汉武帝刘彻驾崩后,年仅八岁的季子刘弗陵接纳皇位,成为汉昭帝。汉武帝这位有着雄才伟略的君主,为什么会将山河传给年幼未成年的刘弗陵呢?他难谈不缅想年幼的天子会被东谈主凌暴吗? 伸开剩余82% 其实,这竟然是汉武帝无奈之举,别无遴选。扫数这些逆境,最终都是他我方一手变成的。 尽管汉武帝妃嫔宽广、好意思
好的,我将帮你改写这篇著作,保抓欢跃不变,同期加多一些细节描述,使内容更丰富,字数变化不大。 --- 大汉王朝无疑是中国历史上极为雄伟的一个时候,尤其是在西汉初期,裸显露了一代代睿智的君主。建国皇帝刘邦奠定了汉朝的基石,随后中文帝与汉景帝以宽厚仁政知名于世。可是,在这些君王之中,汉武帝刘彻的业绩尤为特出,他在牢固汉朝的大一统政权方面作念出了极其雄伟的孝顺,号称西汉最具影响力的君主。 汉朝辩别为西汉和东汉两个时候。西汉的独创者汉高祖刘邦,濒临的是一个履历了历久战乱、百废待兴的重生国度。为了平安国
好的,我帮你改写这篇著述,保持每段首肯不变,同期加多一些细节形容,让内容更丰富: --- 大汉忠臣苏武仍是手持旌节,孤身一东说念主遵循在冰天雪地的北海边,整整十九个春秋冬夏,从未有一点动摇。他对大汉帝国的忠诚如磐石般执意,初心耐久未变。其后,汉朝朝廷得知苏武仍被困于匈奴,阐发了他的忠义之名,坐窝伸开了救济算作,誓将这位忠臣安全接回梓里。 汉朝的使团在途中过关斩将,克服了匈奴竖立的重重防止和恶劣的天然环境,终于奏凯地将苏武从活泼遍及的沙漠中救出,安全带回华夏。奉陪苏武一同转头的队列中,还有一个不
当地时刻6月19日,融合国营业和发展会议(UNCTAD)发布的《2025年全国投资论说》泄露,2024年,巨匠番邦径直投资(FDI)小幅增长4%,达到1.5万亿好意思元,但剔除欧洲金融往来波动后,本色下落11%,皆集两年两位数下滑。国际神情融资(IPF)下落26%,对数字投资增长14%。跨境并购往来额增长14%,达到4430亿好意思元,但仍低于畴昔十年的平均水平。论说称,2025年国际投资出息阻扰乐不雅。营业着急状貌已导致大多半FDI出息场所下调。2025年第一季度的早期数据泄露,往来和神情行
2024年11月6日欧洲杯体育,特朗普在发表胜选演讲时曾说谈,“我不会发动战役。我要住手战役” 。不外只是往常泰半年,他又变卦了。 据新华社转引好意思国媒体的报谈,好意思国总统特朗普17日晚告诉其高档别助理,他已批准好意思军对伊朗的打击估计,但暂不下达终末号令,以不雅察伊朗是否会烧毁核技俩。 以色列在13日突袭伊朗后,特朗普急促抛清关系,默示好意思国莫得参与。不外到了17日,他就在社交媒体上数度发文,称“咱们的耐烦仍是消耗”,要求伊朗“无条目征服”。而如今,他已撺拳拢袖,几近加入以色列对伊朗的
回到顶部
服务热线
官方网站:www.x7kzw.com
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:87515064408
邮箱:6232ffbc@outlook.com
地址:新闻科技园2396号
关注公众号

Powered by 开云(中国)Kaiyun·官方网站 RSS地图 HTML地图


开云(中国)Kaiyun·官方网站-开云体育给定源图像和生成的图像的 CLIP 镶嵌-开云(中国)Kaiyun·官方网站