- CFG++:约束流形的无监督扩散模型分类器引导
通过将文本引导问题重新定义为一个逆问题,并使用基于扩散模型的逆问题求解器,本文提出了一种名为 CFG++ 的新方法来解决传统 CFG 中存在的问题,包括改善文本到图像生成的样本质量、可逆性、减少模式崩溃等方面的显著改进,同时在所有规模上始终 - DiffNorm:自监督标准化非自回归语音转语音翻译
这项研究介绍了 DiffNorm,一种基于扩散的规范化策略,通过去噪合成损坏的语音特征构建规范化的目标数据,同时提出使用无分类器指导来进行非自回归 Transformer 模型的正则化,从而在速度和翻译质量上实现了显著的提升。
- 无分类器引导权重调度器的分析
通过进行综合实验,本文提供了对 CFG 权重调度器的认识,发现简单的单调递增权重调度器能够持续改善性能,仅需一行代码即可实现;此外,更复杂的参数化调度器可以被优化以进一步提高性能,但不能在不同模型和任务之间推广。
- CVPR重新思考无分类器扩散引导中的空间不一致性
本研究提出了一种新方法 Semantic-aware Classifier-Free Guidance (S-CFG),用于定制不同语义单元在文本到图像扩散模型中的引导程度。研究表明,在各种文本到图像扩散模型上,S-CFG 相较于原 CFG - 越狱快速攻击:一种针对扩散模型的可控对抗攻击
通过黑盒攻击方法和分类器自由引导的概念,本研究暴露和强调了现有防御机制的脆弱性,这给图像生成社区带来了安全问题。
- 对比提示改善文本到图像扩散模型中的解缠
通过对分类器的自由引导的简单修改,该论文展示了 Contrastive Guidance 方法可以帮助在文本到图像模型中解开图像因素,从而提供对图像因素更精细的控制。该方法的关键思想是使用两个仅在最小标记上有差异的提示对所需的因素进行描述, - 狄利克雷流匹配及其在 DNA 序列设计中的应用
离散扩散或流模型能够实现比自回归模型更快、更可控的序列生成。本文通过基于狄利克雷分布混合的概率路径,在平凡上的 na"ive 线性匹配流上开发出狄利克雷流匹配模型,以克服训练目标中的不连续性和进一步的病理问题,从而实现分类器或无分类器引导。 - 具有感知损失的扩散模型
通过引入自我知觉目标,将扩散模型训练中使用的有噪自动编码器目标与无监督感知网络训练中使用的去噪自动编码器目标关联,我们提出了一种新的扩散模型,可以生成更真实的样本,而不会牺牲样本多样性。
- 自适应引导:无需训练的条件扩散模型加速
该研究综合考察了无分类器引导在文本条件扩散模型中的作用,从推理效率的角度进行了详细研究,并提出了自适应引导(AG)的有效变体,以在保持图像质量的同时减少计算量。研究发现,通过简单的仿射变换可以替代整个神经函数评估,以实现更廉价的推理,从而为 - 对抗性得分蒸馏:当得分蒸馏遇上 GAN
现有的分数蒸馏方法对于分类器无关指导(CFG)的尺度非常敏感,表现为小的 CFG 尺度上的过度平滑或不稳定,而在大的尺度上过饱和。本文提出了对抗性分数蒸馏 (ASD) 方法,它使用可优化的鉴别器并使用完整的优化目标进行更新。实验证明,所提出 - 引导式流生成建模与决策
使用非分类器引导的流匹配模型在条件图像生成和语音合成方面显著改善了样本质量,而且在计算量极低的情况下不会影响智能体的总体性能。
- 使用分类器分数蒸馏的文本到 3D 转换
通过对分类器无关指导在分数蒸馏中的作用进行重新评估,我们发现了一个令人惊讶的发现:仅仅用指导就足够进行有效的文本到 3D 生成任务。我们称之为分类器分数蒸馏(CSD)方法,它可以理解为使用隐式分类模型进行生成。这种新视角揭示了对现有技术的新 - 无噪音分数蒸馏
通过解释 Score Distillation Sampling (SDS) 过程中存在的一个不需要的噪声项的蒸馏的必要性,本文提出了一种新的无噪声评分蒸馏(NFSD)过程,通过极少的修改实现了对预训练文本到图像扩散模型的更有效蒸馏。
- MMSGDiff:时尚合成的风格引导扩散模型
本文介绍了一种创新的样式引导扩散模型 (SGDiff),它结合了图像模态和预训练的文本到图像扩散模型,以促进创意时尚图像合成。它通过混合补充样式引导克服了文本到图像扩散模型的局限性,大大降低了训练成本,并解决了仅依靠文本输入来控制合成样式的 - 不使用分类器的引导方式,保持话题一致性
通过对多项任务的优化,本文展示了分类器自由引导(CFG)可以作为一种单纯的语言模型推理技术,以优于当前最佳模型的表现在 LAMBADA 任务上取得了 SOTA 成果,并可改善语言助手任务的准确性和连贯性。
- MagicFusion: 通过融合 Diffusion 模型改善文本到图像生成性能
本研究提出了一种名为 Saliency-aware Noise Blending(SNB)的简单而有效的方法,旨在将文本引导扩散模型组合起来以实现更可控的生成,并在各种应用中展现出令人印象深刻的有效性。
- 减少,重复利用,回收:基于能量扩散模型和 MCMC 的组合生成
本文探讨了基于评分的解释下的扩散模型的新的条件化方式、修改、及重复利用方法,研究了目前技术下导致某些类型的组合失败的原因,并提出了解决方案,同时提出了基于能量的参数化的扩散模型,该模型得以利用新的组合算子和更复杂的 Metropolis 修 - TextCraft: 从文本生成高保真度和多样性形状的零射击方法
TextCraft 使用多分辨率和离散的潜在空间生成高保真且多样化的 3D 模型,过程中使用 CLIP 作为条件,并结合变形器模型和无分类器引导方法,优于其他同领域研究。
- ICLRAudioGen: 基于文本指导的音频生成
本文提出了一种基于文本输入生成音频的生成模型,使用数据增强技术和多流建模来减轻音频生成中的诸多挑战,包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等,并实现了比其他基准模型更好的音频生成效果。
- GLIDE: 基于文本引导扩散模型的逼真图像生成和编辑
本研究探讨了扩散模型在文本条件下生成图像的问题,并比较了不同的指导策略:CLIP 指导和无分类器指导。 结果发现对于照片逼真度和字幕相似性,后者更受人类评估人员的青睐,还可以进行图像修复。