Nov, 2023

VQA模型中的注意力模式零-shot翻译为自然语言

TL;DRZS-A2T是一个零射击框架,将给定模型的转换器注意力转换为自然语言而无需任何训练,以可理解形式提供关于该模型的见解。它在视觉问答(VQA)的上下文中构建在预训练的大型语言模型上,并通过利用VQA模型的文本-图像匹配能力来确定其相似性,从而实现了无需训练并能够替换不同引导来源(例如属性而非注意力矩阵)或语言模型的框架。在VQA的文本解释数据集上进行了评估,并在GQA-REX和VQA-X的零射击设置中达到了最先进的性能。