基于扩散的感知的文本图像对齐

Sep, 2023

Text-image Alignment for Diffusion-based Perception

Neehar Kondapaneni, Markus Marks, Manuel Knott, Rogério Guimarães, Pietro Perona

TL;DR扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型，对于传统机器学习任务产生了一系列创新方法。然而，如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现，自动生成的描述能够改善文本图像对齐，并显著提升模型的交叉注意力图，从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型，并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外，我们的方法适用于跨领域环境；我们使用模型个性化和标题修改来将模型与目标域对齐，并改善了非对齐基准的性能。我们的目标检测模型，在 Pascal VOC 数据集上训练，实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法，在 Cityscapes 数据集上训练，实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。

Abstract

diffusion models are generative models with impressive text-to-image synthesis capabilities and have spurred a new wave of creative methods for classical machine learning tasks. However, the best way to harness t

diffusion models generative models text-to-image synthesis perceptual knowledge visual tasks

发现论文，激发创造

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

利用扩散模型和元提示进行视觉感知

通过引入可学习的嵌入（元提示）来利用扩散模型解决视觉感知任务，我们的方法在深度估计和语义分割任务上取得了新的性能记录，并在 ADE20K 的语义分割和 COCO 数据集的姿态估计等方面达到了与最先进方法相媲美的结果，展示了其稳健性和多功能性。

Dec, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

无需训练的结构扩散引导的组合文本到图像合成

本文基于扩散模型的可控属性，将语言结构与扩散过程相结合，进一步提高了 T2I 模型的组合能力，特别是更准确的属性绑定和更好的图像组合，这得益于跨注意层的帮助和语言洞察力。

Dec, 2022

基于关注重心的文本到图像的合成

本研究提出了两个新的损失函数，用于在采样过程中根据给定的布局重新聚焦注意力图，以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题，并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验，证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中，并始终提高其生成图像与文本提示之间的对齐度。

Jun, 2023

数据集扩散：基于扩散的像素级语义分割合成数据集生成

通过利用文本到图像生成模型 Stable Diffusion (SD) 的文本提示、交叉注意力和自我注意力，我们引入了三种新技术：类别提示附加，类别提示交叉注意力和自我注意力指数化，从而生成与合成图像相对应的分割地图，这些地图可以作为训练语义分割器的伪标签，消除了对像素级注释的繁重需求，我们还在 PASCAL VOC 和 MSCOCO 两个数据集上进行了评估，我们的方法明显优于同行的工作。

Sep, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

利用扩散模型的时空关注力实现高保真度文本到图像合成

本文提出了一种新的文本到图像算法，通过在扩散模型中加入显式的空间 - 时间交叉注意力控制，利用布局预测器和空间注意力控制相结合，实现优化组合权重的方式，从而生成与文本更高保真的图像。

Apr, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

信息论文本到图像对齐

基于信息论对齐度量的自监督微调方法对模型对齐问题进行了研究，在文字到图像生成任务中获得了与最新技术相媲美或超过的结果，并且只需要一个预训练的去噪网络来估计互信息和一个轻量级微调策略。

May, 2024