使用 System 1 和 System 2 的强化学习和逆向强化学习

AAAINov, 2018

使用 System 1 和 System 2 的强化学习和逆向强化学习

Reinforcement Learning and Inverse Reinforcement Learning with System 1 and System 2

Alexander Peysakhovich

TL;DR探讨个体行为目标的两种模型之间的区别，一种是理性演员模型，另一种是双系统模型，并在此基础上提出了一种新的基于 IRL 算法的方法来正确地推断双系统决策者的目标。

Abstract

Inferring a person's goal from their behavior is an important problem in applications of AI (e.g. automated assistants, recommender systems). The workhorse model for this task is the rational actor model - this amounts to assuming that people have stable reward functions, discount the

behavioral goal inference rational actor model dual-system model markov decision problems inverse reinforcement learning

发现论文，激发创造

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

使机器人能够交流它们的目标

通过机器模拟对人类推导目标功能的学习过程，选择对人最具信息量的行为，以准确预测机器人在新情境下的行为，为此我们提出了两种候选的近似推断模型，并在自动驾驶领域中进行用户研究，结果表明，某些近似推断模型可以使机器人生成更好的行为示例，从而更好地使用户预测其行为，但我们还需要进一步研究人类从机器人行为示例中的推导过程。

Feb, 2017

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

逆强化学习建模和解释现实世界中的人类风险决策

使用反强化学习 (IRL) 模型人类决策行为，以理解人类在面临风险时的决策，提出历史状态对人类奖励函数具有影响力的假设，并设计反映这些因素的特征。结果表明，IRL 是一种有效的刻画人类决策行为的工具，并帮助解释人类在面临风险决策中的心理过程。

Jun, 2019

从摘要数据中进行反向强化学习

该论文介绍了一种新的逆向强化学习方法，该方法不需要对数据进行特定的简化假设，可以在不确定简化函数的情况下进行推理和评估参数不确定性。

Mar, 2017

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

贝叶斯逆强化学习用于非马尔可夫奖励

从专家行为中直接推断出奖励机制（RM）的贝叶斯逆强化学习（BIRL）框架，以非 Markovian 奖励函数为基础进行了重大改进，新的奖励空间定义，将专家示范调整为包括历史，展示了计算奖励后验的方法，并提出了一种模拟退火的新修改方案来最大化后验，通过优化其推断的奖励表现出良好性能，并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。

Jun, 2024

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了 IRL 问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024