微调扩散模型以提升文本到图像生成中的人脸质量
利用定性和定量指标以及用户研究,本论文主要研究了生成模型在面部图像生成中的有效性和不足之处,并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用,我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外,我们还提出了一种分析模型,以了解训练数据选择如何影响生成模型的性能。
Sep, 2023
通过引入一个缩放因子,适应各种尺寸和长宽比的图像,在保持视觉保真度的同时,改善了低分辨率图像上目标不完整和高分辨率图像上重复表示的问题。
Jun, 2023
人物为中心的图像生成方法由于对常规预训练扩散进行微调导致训练不平衡,同时学习场景和人物生成会降低质量。本文提出了 Face-diffuser,一个协作生成管道,通过专门的预训练扩散模型和新颖的机制 (SNF) 消除训练不平衡并提高生成质量。
Nov, 2023
本文提出了一种新的人脸图像质量评估方法 DifFIQA,它基于去噪扩散概率模型(DDPM)的前向和后向过程来评估人脸图像的质量。该方法通过量化 DDPM 造成的扰动对相应图像嵌入的影响,并将其用于质量预测。此外还提出了基于回归的质量预测器 DifFIQA(R),以平衡性能和执行时间。该方法在 7 个数据集上进行了全面的实验,并与 4 个目标 FR 模型和 10 个最先进的 FIQA 技术进行了对比,表现良好。
May, 2023
通过建立一个综合基准测试来评估最先进的检测器的泛化能力和鲁棒性,然后通过频域分析伪造痕迹来得出各种见解,并进一步证明使用频率表示训练的检测器可以很好地泛化到其他未见的生成模型。
Feb, 2024
该论文提出了一种名为 DSD 的创新方法,它利用预训练的 text-to-image 扩散模型进行少样本判别性学习,并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习对模型进行微调,实现图文匹配,并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。
May, 2023
本文介绍了一种有效可扩展的算法,利用强化学习(RL)在各种奖励函数上改进扩散模型,包括人类偏好、组合性和公平性,从而有效地解决了扩散模型与人类偏好不一致的问题,同时提高了生成样本的组合性和多样性。
Jan, 2024
使用去噪扩散模型,我们提出了一种名为 PIDM 的人体图像扩散模型,解决了复杂的转换问题,并展示了在两个大型基准测试中的显着结果,以及如何在下游任务中使用生成的图像。
Nov, 2022