May, 2024

VSA4VQA: 将矢量符号体系扩展到自然图像的视觉问答中

TL;DR提出了一种名为 VSA4VQA 的新型 VSAs 的实施,它是第一个将 VSA 扩展到复杂空间查询的模型,并通过引入学习的空间查询掩模和预训练的视觉 - 语言模型来解决视觉问题回答任务,评估结果表明它能够有效地编码自然图像,并取得与最先进的深度学习方法竞争性的性能。