Jan, 2020

为视觉问答辩护的网格特征

TL;DR本文探讨了基于 Bounding Box/Region 的 Bottom-up attention 方法是否是解决 Vision and Language 任务(如视觉问答(VQA))成功的关键因素,结果发现与 grid features 方法相比,前者的优势并非是最重要的。同时,grid features 方法设计和训练更加简单,使用更加灵活,并且能够进行端到端训 练,不需要 region 标注,实现了直接从像素到答案的学习。