跨模式人脸识别通过受控扩散

Dec, 2023

DiFace: Cross-Modal Face Recognition through Controlled Diffusion

Bowen Sun, Shibao Zheng

TL;DR通过建立理论连接和概率传递，DiFace 是一种通过可控的扩散过程来实现面部识别的解决方案，不仅在更广泛的任务领域释放了 DPMs 的潜力，而且在文本到图像的面部识别中实现了显著的准确性，这是我们知道的首次，这一点通过我们在验证和识别实验中的结果得到证实。

Abstract

diffusion probabilistic models (DPMs) have exhibited exceptional proficiency in generating visual media of outstanding quality and realism. Nonetheless, their potential in non-generative domains, such as face recognitio

diffusion probabilistic models face recognition textual description cross-modal face recognition diface

发现论文，激发创造

多模态驱动的人脸语音生成、人脸交换、扩散模型

本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法，采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系，并结合额外的隐式信息进行高保真度的面部生成，并且能够优雅地用于面部交换。

May, 2023

使用扩散模型进行无偏面部合成：我们已经达到目标了吗？

利用定性和定量指标以及用户研究，本论文主要研究了生成模型在面部图像生成中的有效性和不足之处，并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用，我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外，我们还提出了一种分析模型，以了解训练数据选择如何影响生成模型的性能。

Sep, 2023

多模态人脸生成与编辑的协同扩散

本文提出了一种名为 Collaborative Diffusion 的模型，在不需要重新训练的情况下，利用多种单一模态扩展固有的单一模态扩散模型以实现多模态人脸生成和编辑。

Apr, 2023

跨模态语境扩散模型的文本导向视觉生成与编辑

我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff)，通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中，将上下文传播到这两个过程的所有时间步，从而促进跨模态条件建模，在文本到图像生成和文本到视频编辑的两个挑战性任务中，我们的 ContextDiff 实现了新的最先进性能，通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。

Feb, 2024

跨模态音乐和图像生成的离散对比扩散

通过提高输入与输出的互信息，利用条件离散对比扩散 (CDCD) 损失和两种对比扩散机制，将对比学习和传统变分目标相结合，我们成功地提高了多模式条件综合生成模型的输入输出对应性并取得了良好的结果。

Jun, 2022

联合征服：使用扩散模型的即插即用多模态合成

本文研究了使用扩散模型生成图片以满足多种限制条件的问题。我们提出了一种基于去噪扩散概率模型的解决方案，该方法能够统一多个扩散模型，并引入一种新的可靠性参数，使得可以在采样时仅使用不同数据集上训练的现成模型来指导并满足多种限制条件的任务。该方法在多种标准的多模态任务上表现出了有效性。

Dec, 2022

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

微调扩散模型以提升文本到图像生成中的人脸质量

通过评估现有度量标准并开发一种新的面部评分指标（Face Score），本研究提出了一种改进扩散模型以提高生成图像质量的方法。引入指导损失函数用于微调预训练的扩散模型，实验证实了该方法在提高面部质量的同时保持了其一般能力。

Jun, 2024

揭示扩散特征在个性化分割与检索中的力量

个性化检索和分割旨在基于输入图像和参考实例的简短描述在数据集中定位特定实例。本文探讨了用于这些任务的文本到图像扩散模型，并提出了一种名为 PDM 的新方法，该方法利用预训练的文本到图像模型的中间特征进行个性化任务而无需其他训练。PDM 在常见的检索和分割基准上展示了卓越的性能，甚至超过了监督方法。此外，本文还强调了当前实例和分割数据集的明显缺点，并提出了这些任务的新基准。

May, 2024

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023