T2I-Adapter: 学习适配器以挖掘更多可控能力的文本到图像扩散模型
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
通过增强 T2I 模型的判别能力来实现更精确的文本与图像对齐,我们提出了一种基于 T2I 模型构建的判别适配器,并利用判别微调来改善文本和图像之间的对齐。综合评估结果表明,我们的方法在生成性能上优于其他模型,并在两个判别性任务方面达到了最先进的性能。
Mar, 2024
我们提出了 AnyControl,这是一个支持多种不同控制信号任意组合的多控制图像合成框架,它使用了多模态的嵌入来引导生成过程,实现了对用户输入的整体理解,并通过广泛的定量和定性评估展示了高质量、忠实的生成结果。
Jun, 2024
在 AI 驱动视频生成领域,本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战,保持了 T2I 模型的结构完整性和运动模块,并在保持空间细节的同时降低了可训练参数的需求,这一性能上的突破在创意应用中具备了广泛的适用性。
Dec, 2023
提出了一种新颖的灵活高效的可控文本到图像生成方法 FlexEControl,其核心是一种独特的权重分解策略,能够有效地整合不同类型的输入,提高了生成图像与控制之间的准确性,同时显著降低了与多模态条件相关的计算开销。相比 Uni-ControlNet,该方法在可训练参数和内存使用方面分别减少了 41% 和 30%,且能够灵活生成在多种输入条件下引导的图像。
May, 2024
ArtAdapter 是一种转换性的文本到图像(T2I)风格转移框架,能够超越传统的颜色、画笔和物体形状的限制,捕捉高级风格元素,如构图和独特的艺术表达。通过整合多级风格编码器与我们提出的显式适应机制,ArtAdapter 在风格转移中实现了前所未有的保真度,确保与文本描述的紧密对齐。此外,辅助内容适配器(ACA)的融入有效地将内容与风格分离,减轻了从风格参考中借用内容的问题。此外,我们的新颖快速微调方法可以进一步增强零样式表示,同时减轻过拟合的风险。全面的评估证实了 ArtAdapter 超越了当前最先进的方法。
Dec, 2023
通过利用嵌入的语言模型的数学基础,我们的技术使得在模型偏见的作用下对输出的严重程度进行可扩展和便捷的控制,同时也允许通过精确的提示工程生成通常不真实的图像,我们还演示了将此操纵用于平衡生成类别频率的构造性应用。
Apr, 2024
本文提出了 TTIDA(Text-to-Text-to-Image 数据增强)方法,利用大型预训练的 T2T 和 T2I 生成模型来进行数据增强。通过在 T2T 模型的细节描述下对 T2I 模型进行条件控制,我们能够以灵活和可控的方式生成逼真的标记图像。对于领域内分类、跨领域分类和图像字幕任务的实验表明,与其他数据增强基线相比,TTIDA 表现一致地表现出了优越的性能和增强韧性。分析研究进一步证明了 TTIDA 增强性能和提高鲁棒性的有效性。
Apr, 2023
本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息,以更好地保存文本不相关内容并避免相同映射问题,从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡,并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。
May, 2023