May, 2024

增强的视觉问答:卷积的比较分析与文本特征提取

TL;DR本研究论文比较了复杂的文本模型和简单的局部文本特征模型在 VQA 中的效果,并发现采用复杂的文本编码器并不总是最优的选择。基于这一发现,论文提出了一种改进的模型 ConvGRU,通过引入卷积层增强了问题文本的表示,在 VQA-v2 数据集上实现了更好的性能而不显著增加参数复杂性。