- AlignIT: 提升文本图像模型自定义中的提示对齐
我们提出了一种新的后处理算法 AlignIT,该算法将感兴趣的概念的键和值与输入提示中的所有其他标记的键和值保持不变,从而解决了现有方法存在的问题,并显著提高了与输入提示的对齐性能。
- DiffuseHigh: 基于结构引导的无训练渐进式高分辨率图像合成
现有大规模扩散模型受限于生成 1K 分辨率图像,本文提出基于渐进方法的创新研究,在不增加额外训练成本的情况下,利用低分辨率图像辅助生成高分辨率图像,实现了对生成模型超越原有能力的探索和验证。
- 用噪声条件化感知调整扩散模型
通过在扩散模型的内嵌空间中优化感知目标,我们提出了一种方法,使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量,同时降低了计算成本。
- LIPE:学习非刚性图像编辑的个性化身份先验
该研究探讨了学习用于非刚性图像编辑的个性化身份先验的新任务,并提出了一个两阶段框架 LIPE,通过利用同一主题的有限图像集来定制生成模型,并利用学习到的先验进行非刚性图像编辑。实验结果在定性和定量方面证明了我们的方法在各种编辑场景中相对过去 - YouDream: 生成可解剖控制的一致性文本到三维动物
使用文本到图像扩散模型指导的 3D 生成方法能够创建具有视觉吸引力的资产,我们提出了一种名为 YouDream 的方法,通过二维视图控制 3D 姿势先验来生成高质量的具备解剖学控制的动物,该方法能够生成以往的文本到 3D 生成方法不能实现的 - 通过注意力引导的特征增强修复文本到图像扩散模型中的灾难性忽视
基于文本的图像扩散模型(T2I DMs)能够从文本描述中生成高质量的图像,但这些模型常常产生与输入提示不完全一致的图像,其中最突出的问题是灾难性忽视,即 T2I DMs 生成的图像丢失了提示中提到的关键对象。我们首先对这个问题进行了实证研究 - EmoAttack: 情感对图像传播模型用于情感后门生成
使用情感文本触发恶意负面内容生成图像的基于文本到图像扩散模型的情感感知背门攻击(EmoAttack)及其解决方法 EmoBooth。
- 六 - CD:用于良性文本图像扩散模型概念去除的基准测试
通过引入新数据集 Six-CD 和新评估指标,我们对文本到图像扩散模型中的概念去除方法进行了细致评估,并提供了有价值的观察和讨论。
- 多模态引导下的图像编辑与文本到图像扩散模型调查
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号 - 通过结构和主题保留增强技术推进细粒度分类
在细粒度视觉分类任务中,对于难以区分的子类别,使用新的数据增强方法 SaSPA 来增加数据集的多样性和总结准确类别的表达,通过对图像边缘和主体表征的条件机制进行模型训练,并在多个设置下比较了传统的和最新的生成数据增强方法,发现对于细粒度视觉 - 并非所有提示都是相等的:基于提示的文本到图像扩散模型修剪
T2I 扩散模型的自适应提示优化裁剪 (APTP) 通过学习提示路由模型和架构代码来减少计算负担,优于单模型裁剪,在 FID、CLIP 和 CMMD 指标上具有更好的性能,并发现语义上有意义的聚类。
- 大型语言模型在扩散模型中的提示编码作用探索
利用新提出的框架,将大型语言模型与文本到图像生成模型灵活地集成在一起,并通过消除固有的位置偏差和增强文本表示能力提高预测性能。
- 精确物体数量的文本到图像生成
通过分离并计算对象的实例以及修复缺失对象的形状和位置,本文提出了一种名为 CountGen 的模型,该模型在生成图像时能够准确控制对象的数量。
- FouRA: 傅里叶低秩适应
FouRA 是一种新颖的低秩方法,通过学习傅里叶域的投影以及灵活的基于输入的适配器秩选择策略,成功解决了数据复制和分布坍塌问题,并显著提高了生成图像的质量。
- DiffusionPID: 通过部分信息分解解释扩散
Diffusion Partial Information Decomposition (DiffusionPID) is a novel technique applied to decompose the input text prom - STAR: 基于骨架情感文本的 4D 头像生成与网络内运动重定向
通过骨架感知文本为基础的 4D 人物生成与网络内运动重定向的方法可以综合优化几何、纹理和动作,从而合成与文本描述相符的高质量 4D 人物,并展示了每个组成部分的贡献。
- 利用互信息在扩散模型中提供一致字符生成的 ORACLE
通过介绍一种新的方法,本文研究了如何从单一的文本提示产生具有一致的视觉特征的角色表达,通过定量和定性分析,证明了该方法在生成具有一致视觉特征的角色方面优于现有方法,扩展了艺术和创作表达的可能性。
- DiffUHaul: 图像中无需训练的物体拖动方法
通过局部的文本到图像模型的空间理解,提出了一种不需要训练的方法 DiffUHaul,用于对象拖动任务,并通过注意力掩蔽、自我注意力共享机制和扩散锚定技术来改进编辑性能,并使用 DDPM 自我注意力分桶来适应真实图像编辑。
- 扩散模型中的记忆图像共享一个可定位和删除的子空间
大规模的文本到图像扩散模型在从文本输入中生成高质量图像方面表现出色,然而研究表明它们倾向于记忆和复制训练数据,引起了版权侵犯和隐私问题。本文针对扩散模型中的记忆问题,通过剪枝特定子空间的权重提出了一种后处理方法,避免了破坏训练或推理过程,从 - 面向频谱感知的参数高效微调扩散模型
提出了一种新的谱感知适应框架,即 SODA,用于大规模预训练生成模型的参数高效适应,通过调整预训练权重的奇异值和基向量来实现参数高效适应正交矩阵,提供了一种谱感知替代现有微调方法的有效选择。