Aug, 2023

情感视觉对话:基于视觉对话的情绪推理的大规模基准测试

TL;DR我们引入情感视觉对话,这是一个情感解释和推理任务,作为研究在视觉对话中理解情感形成的测试基准。该任务涉及三个技能:(1)基于对话的问答(2)基于对话的情感预测和(3)基于对话的情感解释生成。我们的主要贡献是收集了一个大规模的数据集,称为 AffectVisDial,包含 50,000 个 10 轮的视觉对话,以及结论性的情感归因和基于对话的情感解释,总计达 27,180 个工作小时。我们解释了在收集数据集时的设计决策,并介绍了与对话参与者相关的提问者和回答者任务。我们训练并展示了基于最先进模型的坚实的情感视觉对话基准。值得注意的是,我们的模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。我们的项目页面可在此 https URL 找到。