Feb, 2020

VQA-LOL: 逻辑视角下的视觉问答

TL;DR本文研究了视觉问答系统是否能够回答多个经过逻辑组合的问题,并构建了一个逻辑复合和语言转换(否定、析取、合取和反义词)的VQA基准库。其中提出了一种使用问题注意力和逻辑注意力的“Lens of Logic(LOL)”模型,并采用新颖的Frechet-Compatibility Loss来保证组成问题的回答与推断出的逻辑操作一致。该模型在学习逻辑组合时表现出显著的提升,同时保持VQA的性能,从而将逻辑连接词嵌入到视觉理解中实现了鲁棒性的提高。