Nov, 2023

对比多视角语言定位

TL;DR本研究采用多视角方法解决了在给定对比性语言描述时解析物体指代的任务,并利用变压器对给定多个图像视图和语言描述进行实用性推理。相比过去的努力仅考虑指代上下文结果而尝试将视觉和语言连接起来,MAGiC利用对比信息共同推理物体指代候选者和引用语言表达的多个视图。我们进行了分析,证明了相对推理对于在SNARE物体指代任务上实现SOTA性能的贡献。