潜在扩散模型的人类对齐分析
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
Mar, 2024
该研究论文探索将人类中心先验直接整合到模型微调阶段,通过人类中心对齐损失强化文本提示中的人类相关信息,以及通过扩散过程中的比例感知和逐步约束确保语义详细性和人类结构准确性,从而提高了合成基于用户编写提示的高质量人类图像的方法。
Mar, 2024
本研究调查神经网络表示与人类认知表示之间对齐的因素,发现模型规模和架构对齐性没有实质性影响,而训练数据集和目标函数对齐性有更大的影响。研究发现,神经网络表示的线性转换有助于提高与人类相似性判断的一致性,但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。
Nov, 2022
通过在扩散模型的内嵌空间中优化感知目标,我们提出了一种方法,使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量,同时降低了计算成本。
Jun, 2024
本研究旨在解决图像融合的问题,通过调整图像的前景与背景以达到统一的视觉一致性。研究采用预训练的潜在扩散模型生成和初步处理模糊的初始图像,通过两种策略(在推理过程中利用高分辨率图像和引入额外的优化阶段)进一步提高初步处理后图像的清晰度,并通过在 iHarmony4 数据集上进行大量实验证明了我们方法的优越性。
Apr, 2024
本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型,并发现这种模型在图像分类任务中具有优异的性能,特别是在经过精心特征选择和池化的情况下,扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法
Jul, 2023
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
使用去噪扩散模型,我们提出了一种名为 PIDM 的人体图像扩散模型,解决了复杂的转换问题,并展示了在两个大型基准测试中的显着结果,以及如何在下游任务中使用生成的图像。
Nov, 2022
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022