Nov, 2023

预训练扩散模型的无监督关键点

TL;DR利用文本到图像扩散模型的新知识,我们的核心思想是找到使生成模型始终关注图像中的紧凑区域(即关键点)的文本嵌入。通过优化文本嵌入,使去噪网络内的交叉注意力图定位为具有小标准差的高斯分布,我们在多个数据集上验证了性能,包括CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion和Human3.6m数据集。在非对齐和不太精选的数据上,我们取得了显著改进的准确性,有时甚至超过了监督学习方法。我们的代码公开可用,可以在我们的项目页面找到。