ACLApr, 2019

再探视觉定位

TL;DR本文重新审视了 Johnson 等人于 2015 年提出的 “使用场景图像检索单元进行图像检索” 的图像 grounding 方法,发现该方法没有有效地使用其学习的物体 - 关系模型。同时,作者还研究了 IRSG 数据集和 VRD 数据集,并发现这些数据集存在偏差,容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题,研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。