使用逆向强化学习预测目标导向的人类注意力

CVPRMay, 2020

使用逆向强化学习预测目标导向的人类注意力

Predicting Goal-directed Human Attention Using Inverse Reinforcement Learning

Zhibo Yang, Lihan Huang, Yupei Chen, Zijun Wei, Seoyoung Ahn...

TL;DR本文提出了第一个反向强化学习模型 (IRL) 模型，使用动态的上下文信念地图来学习人类视觉搜索中的内部奖励函数和策略，并且为了训练和评估我们的 IRL 模型，我们创建了 COCO-Search18 数据集，通过提取学习出的奖励地图，可以了解到目标依赖型背景的学习。

Abstract

Being able to predict human gaze behavior has obvious importance for behavioral vision and for computer vision applications. Most models have mainly focused on predicting free-viewing behavior using saliency maps, but these predictions do not generalize to goal-directed behavior, such

human gaze behavior inverse reinforcement learning visual search coco-search18 object prioritization

发现论文，激发创造

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

逆强化学习建模和解释现实世界中的人类风险决策

使用反强化学习 (IRL) 模型人类决策行为，以理解人类在面临风险时的决策，提出历史状态对人类奖励函数具有影响力的假设，并设计反映这些因素的特征。结果表明，IRL 是一种有效的刻画人类决策行为的工具，并帮助解释人类在面临风险决策中的心理过程。

Jun, 2019

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

ViSaRL：人眼显著性引导的视觉强化学习

用基于视觉显著性引导的强化学习（ViSaRL）来训练机器人从高维像素输入中执行复杂的控制任务，通过优化视觉表征，ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。

Mar, 2024

IRLAS：用于架构搜索的反向强化学习

本论文提出一种基于逆强化学习的架构搜索方法（IRLAS）来搜索拓扑特性类似于人工设计网络的网络结构，并使用生物认知理论的长期记忆和意向记忆模型在 CIFAR-10 和 ImageNet 移动设置数据集上显著优于许多自动生成的架构。

Dec, 2018

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

无目标人类注意力

本文提出了一种基于 FFMs 的数据驱动计算模型，用于解决人类搜索终止问题以及预测在图像中搜索不存在目标时人们的扫描路径，通过将 FFMs 集成为状态表示在逆强化学习中将其作为方法，实验结果在 COCO-Search18 数据集上提高了目标缺失搜索行为的预测水平。

Jul, 2022

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

使用 System 1 和 System 2 的强化学习和逆向强化学习

探讨个体行为目标的两种模型之间的区别，一种是理性演员模型，另一种是双系统模型，并在此基础上提出了一种新的基于 IRL 算法的方法来正确地推断双系统决策者的目标。

Nov, 2018

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019