EMNLPNov, 2020

通过人类凝视引导的序列跨模态对齐生成图像描述

TL;DR本文通过计算机模拟探索图像描述生成时的跨模态对齐过程,结合人类凝视模式记录的信息进行多种模型方案的开发并分析,提出在视觉处理中逐序建模的图像描述生成方法,研究发现使凝视数据逐序处理可以得到更好的描述,探讨了人类认知过程的不同对齐方式并取得了更多自然、多样和更贴近说话者生成描述的结果。