苹果iPhone 16系列备货量增至9500万台,展现市场信心
苹果公司最近一个月两次增加iPhone16系列手机的备货量,相关备货量已增至9500万部,显示出对新产品销售的信心。内部人士表示,苹果公司推出的AppleInt...
2025-01-22
腾讯优图实验室提出了一种名为DynamicControl的新架构,超越了现有的ControlNet++技术。该架构通过动态条件选择机制,显著增强了图像生成的可控性与质量。DynamicControl利用多模态大语言模型(MLLM)推理能力,结合双循环控制器和多控制适配器,实现自适应的条件组合和优化,确保生成图像高度符合预期视觉效果。
在当今的人工智能领域,生成式模型正以前所未有的速度发展,文本到图像(Text-to-Image, T2I)的生成任务尤为引人注目,这一任务不仅要求模型能够根据给定的文本描述生成相应的图像,还要求生成的图像在视觉上与文本高度一致,现有的方法往往难以在多个条件之间实现平衡,导致生成的图像与输入条件不一致。
为了解决这个问题,一项名为“DynamicControl”的新研究应运而生,这项研究由Quantum Bit、南洋理工、浙大等多家研究机构联合提出,旨在通过一种新颖的多控制适配器和高效的条件评估器,将大型语言模型(MLLM)的强大推理能力集成到T2I生成任务中,从而实现对多种控制信号的自适应选择和优化。
背景介绍
现有的文本到图像生成模型大多依赖于预训练的扩散模型,这些模型能够根据给定的文本提示生成高质量的图像,这些模型在处理复杂的视觉任务时仍然面临挑战,尤其是在需要同时考虑多种控制条件的情况下,如何在一个场景中同时控制物体的形状、颜色和纹理等属性?
为了解决这些问题,研究人员提出了“DynamicControl”框架,该框架不仅可以将多模态语言模型的推理能力直接集成到T2I生成任务中,还能自适应地选择不同的条件类型和数量,从而大大增强了生成过程的可控性。
核心创新
1. 双循环控制器
DynamicControl的核心是一个双循环控制器,它可以产生真实的排名分数,用于监督与MLLM预测的条件一致性,具体来说,首先引入一个双循环控制器来生成真实排名分数,作为与MLLM预测的条件一致性监督信号,利用这些排名分数和预选条件得分进行动态控制,实现可控的图像生成。
2. 新颖高效的多控制适配器
为了适应多种控制信号,研究人员设计了一种新颖而高效的多控制适配器,这个适配器可以自适应地解释复杂的控制信号,从而从输入条件中提取全面的多控制嵌入,这种设计使得模型能够在不牺牲图像质量或图像文本对齐的情况下,大大增强可控性。
3. 多条件自适应选择
DynamicControl还采用了一种选择性方法,即只选择那些达到预定义阈值及以上的条件参与后续的T2I模型优化,这种方法确保了只有最相关和质量最高的条件才会影响最终的图像生成过程,这个阈值是可学习的参数,允许模型自适应地确定各种数据集的阈值和调整它们。
实验结果
实验结果表明,DynamicControl显著增强了可控性,而不会牺牲图像质量或图像文本对齐,具体来说,不同条件控制和数据集下的可控性比较显示,DynamicControl在多个方面都优于现有的方法,从各种条件控制的实验结果来看,DynamicControl也表现出了更好的FID(↓)/ CLIP 分数(↑)。
可视化结果
为了更直观地展示DynamicControl的效果,研究人员还提供了一些可视化结果,这些结果显示,DynamicControl生成的图像在颜色、纹理、布局等方面更加符合预期,且与源图像的相似度更高,这表明DynamicControl不仅提高了生成图像的质量,还增强了其可控性和多样性。
结论
DynamicControl为可控视觉生成提供了新的视角,它通过将MLLM的推理能力集成到T2I生成任务中,实现了对多种控制信号的自适应选择和优化,这不仅提高了生成图像的质量,还增强了其可控性和多样性,未来,随着技术的不断发展和完善,DynamicControl有望在更多领域得到应用,为人类带来更多便利和惊喜。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 dousc@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
当前页面链接:https://lawala.cn/post/580.html
相关文章
苹果公司最近一个月两次增加iPhone16系列手机的备货量,相关备货量已增至9500万部,显示出对新产品销售的信心。内部人士表示,苹果公司推出的AppleInt...
2025-01-22
曾经叱咤风云的美国航天,如今各种不顺利,宇航员在空间站回不来,重返月球一再推迟,对木卫二的旗舰探测任务欧罗巴”也遇到了大麻烦:晶体管太脆弱,扛不住宇宙辐射。欧罗...
2025-01-22
「因果推理」绝对是当前GenAI热潮下的小众领域,但是它有一个大佬级的坚定支持者——YannLeCun。他在推特上的日常操作之一,就是炮轰Sora等生成模型,并...
2025-01-22
【新智元导读】84岁的美国老人DorothyElicati在失去结婚65年的丈夫后,每天醒来唯一做的事就是哭泣,直到一个AI机器人的出现。美国会每年花费70万美...
2025-01-22
2024年,头部主播集体瞄准了短剧赛道。最新涌入的玩家是薇娅夫妇。直播带货之后,头部主播们寄希望于通过短剧实现业绩增长,或许难度系数比直播带货本身还要大。...
2025-01-22
国内风头最盛的AI视频团队是哪家?毫无疑问,快手可灵。发布一个月,体验用户超30万,生成700万条短视频,开放网页Web端。要不大家老说呢,技术人才们总是喜欢蛰...
2025-01-22
发表评论