Jan, 2020
为视觉问答辩护的网格特征
In Defense of Grid Features for Visual Question Answering
Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen
TL;DR本文探讨了基于 Bounding Box/Region 的 Bottom-up attention 方法是否是解决 Vision and Language 任务(如视觉问答(VQA))成功的关键因素,结果发现与 grid features 方法相比,前者的优势并非是最重要的。同时,grid features 方法设计和训练更加简单,使用更加灵活,并且能够进行端到端训 练,不需要 region 标注,实现了直接从像素到答案的学习。