跨图像注意力的零样本外观转换

Nov, 2023

Cross-Image Attention for Zero-Shot Appearance Transfer

Yuval Alaluf, Daniel Garibi, Or Patashnik, Hadar Averbuch-Elor, Daniel Cohen-Or

TL;DR利用文本到图像生成模型中的语义知识，在具有相似语义但形状可能差异大的物体之间进行视觉外观转换，通过建立跨图像的注意力机制和利用噪声编码或模型内部表示来提高输出图像质量，实现了零训练的目标。

Abstract

Recent advancements in text-to-image generative models have demonstrated a remarkable ability to capture a deep semantic understanding of images. In this work, we leverage this semantic knowledge to transfer the

text-to-image generative models semantic understanding cross-image attention mechanism denoising process zero-shot approach

发现论文，激发创造

$Z^*$：基于注意力重排的零样式转移

通过理论分析和实验，本研究展示了扩散模型在零样式转换的有效性和优越性，并引入了交叉注意力重排策略，使样式信息能够直接提取并无缝集成到内容图像中。

Nov, 2023

研究跨注意力对解锁零 - shot 编辑的文本到视频扩散模型的效果

最新的图像和视频扩散模型在内容创作方面取得了显著进展，为定制生成内容提供了大量技术。本文首次研究了跨注意力在零样本视频编辑中的作用，展示了在 T2V 模型中实现对物体形状、位置和运动的控制的潜力。

Apr, 2024

跨模态传递的零样本学习

该研究提出了一种模型，即使没有针对该对象的训练数据，也能在图像中识别对象，并从无监督的大型文本语料库中获取对未知类别的必要知识，在语言中的分布式信息可以被视为理解物体外观的语义基础。

Jan, 2013

VQA 模型中的注意力模式零 - shot 翻译为自然语言

ZS-A2T 是一个零射击框架，将给定模型的转换器注意力转换为自然语言而无需任何训练，以可理解形式提供关于该模型的见解。它在视觉问答（VQA）的上下文中构建在预训练的大型语言模型上，并通过利用 VQA 模型的文本 - 图像匹配能力来确定其相似性，从而实现了无需训练并能够替换不同引导来源（例如属性而非注意力矩阵）或语言模型的框架。在 VQA 的文本解释数据集上进行了评估，并在 GQA-REX 和 VQA-X 的零射击设置中达到了最先进的性能。

Nov, 2023

基于视觉 transformer 的多头自注意力机制用于零样本学习

本文提出了一种关注机制的模型以学习适用于未见过的类别识别的属性，在三个常用的零样本学习基准测试上达到了新的最先进效果。

Jul, 2021

图像文本匹配的交叉堆叠注意力

本文研究图像文本匹配问题，提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐，从而推断图像与文本之间的相似性，实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。

Mar, 2018

基于生成模型的零样本图像协调

该文提出了一种零样本图片和谐方法，该方法利用了人类长期对和谐图片的先验知识，并通过预训练的生成模型来实现先验，同时引入注意力约束文本来指导和谐方向，并设计一定的方法来保持前景内容结构。实验表明了该方法的有效性。

Jul, 2023

以语义对应的扩散模型实现外貌转换

介绍了一种通过语义对应关系对图像进行外观转移的方法，该方法使用预先训练的文本到图像扩散模型，并通过重新排列特征来提高结果的准确性。

Jun, 2024

A-STAR: 文本到图像合成的测试时间注意力分离和保留

本文提出了两种测试时间注意力损失函数，显著提高了预训练的基线文本到图像扩散模型的性能。第一，注意力隔离损失减少了文本提示中不同概念的注意力图之间的交叉重叠，从而减少了各种概念间的混淆 / 冲突和在生成的输出中捕获所有概念的最终目标。接下来，我们的注意力保留损失明确强制文本到图像扩散模型在整个去噪时间步中保留所有概念的交叉注意力信息，从而减少信息丢失并保留生成输出中的所有概念。

Jun, 2023

利用 ViT 特征进行语义外观转换

本文介绍了一种名为 Splice 的方法，通过集成 ViT 模型的语义信息，将一个自然图像中的物体的视觉外观转移到另一个图像中，该方法不需要使用对抗训练，也不需要任何额外的输入信息。

Jan, 2022