CVPRMay, 2020

使用逆向强化学习预测目标导向的人类注意力

TL;DR本文提出了第一个反向强化学习模型 (IRL) 模型,使用动态的上下文信念地图来学习人类视觉搜索中的内部奖励函数和策略,并且为了训练和评估我们的 IRL 模型,我们创建了 COCO-Search18 数据集,通过提取学习出的奖励地图,可以了解到目标依赖型背景的学习。