Sep, 2023

基于扩散的感知的文本图像对齐

TL;DR扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型,对于传统机器学习任务产生了一系列创新方法。然而,如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现,自动生成的描述能够改善文本图像对齐,并显著提升模型的交叉注意力图,从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型,并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外,我们的方法适用于跨领域环境;我们使用模型个性化和标题修改来将模型与目标域对齐,并改善了非对齐基准的性能。我们的目标检测模型,在 Pascal VOC 数据集上训练,实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法,在 Cityscapes 数据集上训练,实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。