用于解释双模态和编码器 - 解码器 transformers 的通用注意力模型可解释性

Mar, 2021

用于解释双模态和编码器 - 解码器 transformers 的通用注意力模型可解释性

Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers

Hila Chefer, Shir Gur, Lior Wolf

TL;DR本文提出了第一个用于解释任何基于 Transformer 结构的预测的方法，包括双模态 Transformers 和具有协同注意力的 Transformers，通过考虑并行的多个注意力图来突出与模型输入预测相关的信息。我们将这种通用的解决方案应用于三个最常用的结构，并表明我们的方法优于所有现有的从单模态的可解释性方法进行改进的方法。

Abstract

transformers are increasingly dominating multi-modal reasoning tasks, such as visual question answering, achieving state-of-the-art results thanks to their ability to contextualize information using the self-atte

transformers co-attention multi-modal reasoning image segmentation explainability

发现论文，激发创造

探索和提取跨模态信息以用于图像字幕生成

本研究提出基于 Transformer 的全局与局部信息探索与提炼方法，在跨模态视角下探究图像字幕生成，并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。

Feb, 2020

基于多视角视觉表示的多模态变压器用于图像字幕生成

利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述，这种方法能够同时捕捉到图像内部和图像与文本之间的关系，相较于业内先前方法显著提升了效果，是图像描述任务的最新成果。

May, 2019

通过加权相关累加实现通用注意力模型的解释性

我们提出了一种加权相关性策略，考虑了令牌值的重要性，以减少在平等累积相关性时的失真。通过 CLIP 编码器和后续的映射器，我们提出了统一的基于 CLIP 的两阶段模型，命名为 CLIPmapper，用于处理视觉和语言任务，通过自注意、交叉注意、单模态和交叉模态注意，这使得我们的通用可解释性方法更加合适。对视觉问答和图像字幕进行的广泛扰动测试证实了我们的可解释性方法优于现有的方法。

Aug, 2023

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

多模态转换器中数据、注意力和损失的解耦

本文章论述通过训练多模态 transformer 模型，其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务，并研究了三个重要因素：预训练数据、注意机制和损失函数，以评估其对于模型性能的影响。

Jan, 2021

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

具有低计算成本保证的多模态 Transformer

Transformer-based models have significantly improved performance in multimodal understanding tasks, but suffer from high computational cost, so a Low-Cost Multimodal Transformer (LoCoMT) is introduced to reduce cost while maintaining or outperforming existing models.

Feb, 2024

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016