多样扩散:提升文本到图像生成中的图像多样性
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
通过自监督方法找到可解释的潜在方向,提出了一种简单的方法来缓解不合适的图像生成。进行了广泛实验证明了缓解方法的有效性,特别是对于公平生成、安全生成和负责任的文本增强生成。
Nov, 2023
通过使用图像转图像的方法、以及预训练的文本到图像扩散模型将其参数化,解决了数据扩增过程中具有高级语义标注的动物种类等属性缺乏多样性的问题,并在少样本情境和杂草识别任务中得到实际应用。
Feb, 2023
DiffusionDialog 是一种新的方法,通过引入扩散模型来增强对话生成的多样性。在该方法中,我们将连续潜变量引入扩散模型,通过与编码器结合,将响应的潜在表示编码为连续空间的先验,并通过扩散模型逐步去噪来推断潜变量。实验结果表明,我们的模型在保持连贯性的同时极大地增强了对话回应的多样性。此外,进一步的分析发现我们的扩散模型实现了高效的推断,这是在自然语言处理中应用扩散模型的主要挑战。
Apr, 2024
构建广义模型以同时解决多个计算机视觉任务是一个有趣的方向,本文探索基于扩散的视觉通用模型,将不同类型的密集预测任务统一为条件图像生成,并重新调整预训练的扩散模型,我们在四种不同类型的任务上实验证明了与其他视觉通用模型竞争性的性能。
Jun, 2024
通过对文本到图像系统的进展和合成图像在训练和推理过程中的不足进行研究,揭示了语义不匹配、多样性缺乏和表征基础概念的无能等问题,同时提出了对 CLIP 嵌入几何的令人惊讶的见解。
Oct, 2023
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
快速采用的文本到图像扩散模型强调了解决其偏见的迫切需求。本研究将公平性视为分布对齐问题,提出了两个主要技术贡献:(1)分布对齐损失,将生成的图像的特定特征引导向用户定义的目标分布;(2)扩散模型抽样过程的有偏直接微调,利用有偏梯度更有效地优化生成图像上定义的损失。实证结果显示,我们的方法显著降低了职业提示中的性别、种族及其交叉偏见。即使只微调五个软记号,性别偏见也显著降低。关键是,我们的方法支持超越绝对平等的多样观点公平,如同时控制年龄分布为 75%年轻和 25%年长的情况下消除性别和种族偏见。最后,我们的方法具有可扩展性:通过将这些提示包含在微调数据中,可以同时消除多个概念的偏见。我们希望我们的工作有助于文本到图像生成人工智能的社会调整。我们将共享代码和各种消除偏见的扩散模型适配器。
Nov, 2023
本文介绍了一种名为 “Diffusion Inversion” 的方法,该方法使用预先训练的生成模型 Stable Diffusion,通过将图像倒换到其潜在空间中来捕获原始数据分布并确保数据覆盖,即可生成多样高质量的训练图片,此方法通过三个关键部件成功替换了原始数据集,从而提高了样本复杂度并缩短了采样时间,不仅优于泛化提示导向方法和 KNN 检索基线,还可与常见数据增强技术兼容,提高少样本学习的可靠性。
May, 2023