视觉语言任务的因果关注

Mar, 2021

Causal Attention for Vision-Language Tasks

Xu Yang, Hanwang Zhang, Guojun Qi, Jianfei Cai

TL;DR本文提出了一种新颖的注意力机制 Causal Attention (CATT)，用于消除现有基于注意力的视觉语言模型中一直存在的混淆效应，CATT 可替换任何注意力模块，可大幅提高各种流行的注意力模型的性能，尤其在大规模预训练中具有潜力。

Abstract

We present a novel attention mechanism: causal attention (CATT), to remove the ever-elusive confounding effect in existing attention-based vision-language models. This effect causes harmful bias that misleads the

causal attention vision-language models confounding effect attention module pre-training

发现论文，激发创造

因果关注用于无偏视觉识别

本文提出了一种因果关系注意力模块，通过自我注释来识别难以预测的混淆变量，从而使深度学习模型更好地处理在分布不同的情况下仍具备鲁棒性的因果特征，不仅解决了监督注释需要高昂成本、混淆变量难以抽象提取等问题，并在相应实验中得到了卓越的结果。

Aug, 2021

CAT: 视觉 Transformer 中的交叉注意力

探索使用 Cross Attention 机制替代传统的 self-attention 机制在计算机视觉任务中实现 Transformer 的实用性，实验表明该机制在 ImageNet-1K、COCO 和 ADE20K 等任务上可以达到先进水平，并且降低了计算量。

Jun, 2021

朝向因果基础模型：因果推断与注意力之间的二元性

基于理论结果我们提出了一种新的方法 Causal Inference with Attention (CInA)，它基于多个无标签数据集进行自监督因果学习，在训练完成的 transformer-type 架构的最后一层通过理论上的最优协变量平衡与自注意机制之间的原始 - 对偶关系来实现对未知任务的零样本因果推断。实证结果表明，我们的方法 CInA 能够在分布外数据集和各种真实世界数据集上有效推广，并且与传统的基于每个数据集的因果推断方法相匹配甚至超越。

Oct, 2023

因果关注力用于可解释和可泛化的图分类

本研究提出 Causal Attention Learning (CAL) 策略，利用因果推断来处理图分类过程中存在的 confounding effect of shortcuts，该方法借助注意力模块估计因果特征和快捷特征，并对因果理论进行参数化背门调整。实验结果表明，CAL 策略在合成和真实数据集上均取得了良好的效果。

Dec, 2021

基于因果推断的图神经网络注意力监察：通往强大注意力的更好和更简单选择

本文介绍了一种新的框架，利用因果关系工具为学习注意力函数的过程提供强有力的监督信号，可用于任何基本的基于注意力的图神经网络，并在广泛的基准数据集上进行了验证。

May, 2023

CAT: 一种用于修剪异质图的因果图注意力网络

提出了一种基于局部注意力引导的消息传递机制的因果图注意力网络（CAT）来减弱异质图的分心效应，并在三个不同规模的异质数据集上通过实验证明了 CAT 的有效性。

Dec, 2023

预训练 Transformer 中自注意力的因果解释

我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制，用于估计给定输入符号（标记）序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比，该解释仍然有效。根据此解释，我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲，现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务（自然语言处理的情感分类和推荐）中的 Transformer 结果提供因果解释来演示这种方法。

Oct, 2023

跨模态注意力一致性正则化用于视觉语言关系对齐

通过跨模态注意力实现多模态视觉语言模型中的关系级对齐，进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。

Dec, 2022

微妙的图像扰动对定制扩散模型造成更高影响

通过观察到交叉注意力层对梯度变化更加敏感，我们提出了一种简单但通用且高效的方法 CAAT，用于有效地欺骗潜在扩散模型 (LDMs)。我们展示了对图像的微小扰动可以显著影响交叉注意力层，从而在定制扩散模型的微调过程中改变文本与图像之间的映射关系。大量的实验证明，CAAT 与各种扩散模型兼容，并以更有效（更多的噪声）和更高效（比 Anti-DreamBooth 和 Mist 快两倍）的方式优于基线攻击方法。

Apr, 2024

CoCAtt: 一份基于认知条件的驾驶员注意力数据集（补充材料）

本研究提出了一个新的驾驶员注意力数据集，CoCAtt，通过使用眼动仪设备来捕捉手动和自动驾驶模式下的注意力数据，包含表述驾驶员分心状态和意图的每帧注释。结果表明，将驾驶状态和意图纳入注意力建模中可以提高驾驶员注意力预测的性能，并且 CoCAtt 是目前自主等级、眼动仪分辨率及驾驶情境最多元和最大的驾驶员注意力数据集。

Jul, 2022