May, 2021

通过建模人类注意力轨迹将说话与注视位置联系起来

TL;DR本文提出了一个统一的框架来综合地模拟图像、文本和人类注意力轨迹,并设计了两个任务,即视觉基础任务和图像生成任务。该模型架构同时训练于两个任务上,使用了本文设计的局部二分匹配距离度量方法来评估生成的轨迹的质量,并在完整实验中得出了模型优于基线的结论。此外,我们还证明了预训练的模型对 COCO 的引导图像字幕的下游任务也有积极的效果。