ICCVSep, 2023

在目标导向的视觉对话中指出人类答案错误

TL;DR通过分析以前未使用的人类错误数据集,展示了人类回答错误与问题类型和视觉对话中的问答轮次的相关性,并通过使用简单的 MLP 模型和视觉语言模型的实验,证明了这些因素对于模型准确性在指向人类错误任务中的有效性。