COLINGMar, 2024

基于凝视的视觉问答数据集用于澄清模糊的日语问题

TL;DR通过利用注视信息澄清有歧义的问题,我们提出了以注视为基础的视觉问题回答数据集 (GazeVQA),并提出了一种利用注视目标估计结果提高 GazeVQA 任务准确性的方法。实验结果显示该方法在某些情况下提高了 VQA 系统在 GazeVQA 上的表现,并识别了需要改进的 GazeVQA 任务的一些典型问题。