EMNLPNov, 2020
通过人类凝视引导的序列跨模态对齐生成图像描述
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze
Ece Takmaz, Sandro Pezzelle, Lisa Beinborn, Raquel Fernández
TL;DR本文通过计算机模拟探索图像描述生成时的跨模态对齐过程,结合人类凝视模式记录的信息进行多种模型方案的开发并分析,提出在视觉处理中逐序建模的图像描述生成方法,研究发现使凝视数据逐序处理可以得到更好的描述,探讨了人类认知过程的不同对齐方式并取得了更多自然、多样和更贴近说话者生成描述的结果。