ACLFeb, 2024

描述图像:量化和预测视觉语言处理中人类信号的变异性快慢

TL;DR图像与人类行为之间存在复杂的关系,人类的行为表现如眼动和图像描述时开始描述的时刻等表明了丰富的变化。然而,目前预训练模型的训练中几乎完全忽略了此类变化,因此需要进一步研究。本文利用同时收集的荷兰图像描述和眼动数据进行了研究,探索了视觉 - 语言信号变化的性质,并发现它们彼此相关。基于此结果,我们假设变化部分源于图像的属性,并探讨了预训练视觉编码器编码的图像表示能否捕捉到这种变化。我们的结果表明,预训练模型在一定程度上能够做到这一点,但程度较弱至中等,这表明这些模型缺乏关于何种刺激对人类而言会更加复杂以及导致人类输出变化的偏见。