Aug, 2024

GazeXplain:学习预测视觉扫描路径的自然语言解释

TL;DR本研究解决了传统视觉扫描路径模型缺乏对注视背后原因的解释这一问题,通过提出GazeXplain方法,利用注意力-语言解码器共同预测扫描路径和生成解释。此外,提出的语义对齐机制和跨数据集共同训练方法显著提高了模型的适应性和一致性,实验结果表明GazeXplain在扫描路径预测与解释方面具有有效性,促进了对人类视觉注意力和认知过程的理解。