- 无分类器引导权重调度器的分析
通过进行综合实验,本文提供了对 CFG 权重调度器的认识,发现简单的单调递增权重调度器能够持续改善性能,仅需一行代码即可实现;此外,更复杂的参数化调度器可以被优化以进一步提高性能,但不能在不同模型和任务之间推广。
- WWW抽象概念理解的文本到图像扩散模型的优化器
这篇论文介绍了一种名为 POAC 的新方法,旨在增强从抽象概念中解释和生成图像的文本到图像扩散模型的性能。它提出了一个 Prompt Language Model (PLM) 的框架,通过优化的提示来对生成的图像进行对齐,通过大量实验证明, - OneActor:通过群集条件引导实现一致的角色生成
針對文本到圖像擴散模型中的一致性生成的挑戰,提出了一種輕量級但複雜的引導方法,通過引入後驗樣本來引導去噪軌跡向目標集群集中,並設計輔助組件來同時增強調整過程和規範推理,以提高生成圖像的內容多樣性。綜合實驗結果顯示,該方法在角色一致性、提示一 - ControlNet++:通过高效一致性反馈改进条件控制
通过像素级别的循环一致性优化生成的图像与条件控制之间的一致性来提高图像的可控性。
- 基于扩散的视觉感知中的隐式和显式语言指导
本研究介绍了一种基于隐式和显式语言引导的 IGDP 扩散感知框架,利用大规模视觉 - 语言预训练实现高质量图像生成,同时在语义分割和深度估计等感知任务上取得了有希望的性能。
- 文本到图像扩散模型中的对象条件能量注意力地图对齐
我们介绍了一种新颖的以对象为条件的能量驱动注意力映射对齐方法(EBAMA),以解决文本引导图像生成模型中存在的属性绑定错误和 / 或灾难性对象忽视的问题。通过最大化具有负采样技术的 $z$ 参数化能量模型的对数似然,自然地产生了一种以对象为 - 结构一致的文本驱动风格迁移中的自适应风格融合
本研究提出了一种创新的文本驱动风格转移任务解决方案,名为自适应风格融合(ASI),通过 Siamese Cross-Attention(SiCA)、Adaptive Content-Style Blending(AdaBlending)模块 - CVPR重新思考无分类器扩散引导中的空间不一致性
本研究提出了一种新方法 Semantic-aware Classifier-Free Guidance (S-CFG),用于定制不同语义单元在文本到图像扩散模型中的引导程度。研究表明,在各种文本到图像扩散模型上,S-CFG 相较于原 CFG - CVPR研究跨注意力对解锁零 - shot 编辑的文本到视频扩散模型的效果
最新的图像和视频扩散模型在内容创作方面取得了显著进展,为定制生成内容提供了大量技术。本文首次研究了跨注意力在零样本视频编辑中的作用,展示了在 T2V 模型中实现对物体形状、位置和运动的控制的潜力。
- 通过优化人工效用来对齐扩散模型
Diffusion-KTO 是一种用于对齐文本到图像扩散模型的新方法,通过将对齐目标定义为期望人类效用的最大化。它不需要收集昂贵的成对偏好数据,也不需要训练复杂的奖励模型,而是使用简单的每张图像的二进制反馈信号(例如赞或踩)来实现目标。Di - BeyondScene: 基于预训练扩散的高分辨率人本场景生成
利用现有的预训练扩散模型,BeyondScene 提出了一种新的框架来生成精美的分辨率更高(超过 8K)的以人为中心的场景,以异常的文字 - 图像对应关系和自然度,克服了现有方法在人为中心场景生成方面的限制,并且在与详细的文本描述和自然度的 - 文本生成图像模型的多主体个性化中的身份解耦
借助 Segment Anything 模型生成分割主题,我们提出了一个名为 MuDI 的新框架,实现了多主题个性化图像生成,避免了不同主题间的混合属性,实验证明 MuDI 能够在人评测试中产生高质量的个性化图像,并且相较强基线有两倍的成功 - MagicMirror: 基于受限搜索空间的快速高质量头像生成
我们介绍了一个新颖的框架用于 3D 人体头像的生成和个性化,利用文本提示来提高用户参与度和定制性。通过克服面向照片真实感头像合成的挑战,我们的方法的核心创新在于应用条件神经辐射场(NeRF)模型,利用大规模多视角未注释数据集,创造出一个多功 - 扩散模型中的关系矫正
通过改进文本编码器和使用异构图卷积网络模型 (HGCN),我们提出了一种名为关系修正的新任务,以确保大型文本到图像扩散模型能够准确表示特定的视觉关系。我们在包含关系词和反转物体顺序的提示对中进行了优化,保留了文本编码器和扩散模型的参数,从而 - 在 RGB 及更多领域的文本到图像扩散模型中检测图像归属
对现代文本到图像 (T2I) 扩散模型进行了研究,这些模型可以生成非常逼真和具有创造力的图像。我们提供了广泛的分析,关于哪些推理阶段的超参数和图像修改是可辨认的。我们进一步调查了图像归属所依赖的视觉痕迹,通过扰乱高频细节和使用图像风格和结构 - 孤立扩散:多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
- 做回自己:多主体文本到图像生成的有限关注
我们研究了文本到图像扩散模型中的语义泄漏问题,并提出了一种名为有界注意力的方法,通过限定信息流的路径来解决泄漏问题,从而提高多主题生成的质量。
- DP-RDM:无需微调将扩散模型应用于私有领域
发展首个具有可证明的隐私保证并能生成高质量图像样本的差分隐私检索增强生成算法,通过在文本提示中引入从私有检索数据集检索的样本,无需在检索数据集上微调,利用先进的生成模型生成高质量图像样本,并提供隐私保证。
- Ground-A-Score: 扩展属性编辑的分数提炼
通过加入定位评分,在图像编辑结果中精确反映复杂文本提示的要求,同时保留源图像中物体的完整性,我们提出了 Ground-A-Score,一种简单而强大的模型无关的图像编辑方法。
- 文本到图像扩散模型中的大规模概念编辑
我们提出了一种名为 EMCID 的两阶段方法,用于在大规模实际场景中同时解决文本到图像扩散模型生成过时、受版权限制、错误和带有偏见的内容的问题。通过对每个个体概念进行双自对齐损失和扩散噪声预测损失的记忆优化,第一阶段实现了内存优化;第二阶段