Nov, 2023

VQA 模型中的注意力模式零 - shot 翻译为自然语言

TL;DRZS-A2T 是一个零射击框架,将给定模型的转换器注意力转换为自然语言而无需任何训练,以可理解形式提供关于该模型的见解。它在视觉问答(VQA)的上下文中构建在预训练的大型语言模型上,并通过利用 VQA 模型的文本 - 图像匹配能力来确定其相似性,从而实现了无需训练并能够替换不同引导来源(例如属性而非注意力矩阵)或语言模型的框架。在 VQA 的文本解释数据集上进行了评估,并在 GQA-REX 和 VQA-X 的零射击设置中达到了最先进的性能。