通过特征和演示教授逆强化学习者

Oct, 2018

通过特征和演示教授逆强化学习者

Teaching Inverse Reinforcement Learners via Features and Demonstrations

Luis Haug, Sebastian Tschiatschek, Adish Singla

TL;DR研究学习者和专家在视角不一致的情况下，利用逆强化学习算法从专家演示数据中学习近似最优策略的方法。并引入了“教学风险”概念，衡量在这种情况下，学习者需要付出的非最优代价，提出了专家可以通过更新学习者的视角，降低教学风险的教学方案。

Abstract

Learning near-optimal behaviour from an expert's demonstrations typically relies on the assumption that the learner knows the features that the true reward function depends on. In this paper, we study the problem of learning from demonstrations in the setting where this is not the case, i.e., where there is a mismatch between the worldviews of the learner an

发现论文，激发创造

具有局部最优示例的连续逆优化控制

本文介绍了一种适用于大规模连续任务的概率反向最优控制算法，通过使用奖励函数的局部估计值，该方法可以学习来自非全局最优演示的例子，并消除全局最优的假设。

Jun, 2012

逆强化学习的机器教学：算法与应用

该研究提出了一种基于机器教学的逆强化学习方法，利用最小数量的演示数据来学习策略并提高泛化性能。同时，还发展了一个新的学习方法，在一些应用中可以从信息丰富的演示数据中更加高效地学习到奖励函数。

May, 2018

通过元反强化学习学习意图的先验知识

本文通过学习先验(prior)函数从其他任务的演示中推断奖励函数(reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

通过观察从反强化学习中超越次优演示

本文提出了一种基于Trajectory-ranked Reward EXtrapolation (T-REX)算法的强化学习奖励学习方法，该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数，并结合深度强化学习方法，在多个Atari游戏任务上实现了超过最佳演示2倍以上的优异表现。

Apr, 2019

逆强化学习交互式教学算法

本研究探究了带有教师辅助的反向强化学习问题，提出了一种交互式教学框架，设计了两种具体教学算法：全知教学和黑盒教学，最后在汽车驾驶仿真环境中进行了实验并证明了教学算法的效果。

May, 2019

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

逆强化学习环境设计

通过适应性设计专家演示环境，改善学习效率和鲁棒性，解决基于专家演示学习和环境动力学变化下的奖励函数学习挑战。

Oct, 2022

Bayesian逆强化学习下的演示充分性自主评估

本文提出一种基于贝叶斯反向强化学习和风险价值的自我评估方法，使得能够从演示中学习的智能体能够计算其性能的高置信度界限，并使用这些界限确定何时具有充足数量的演示。

Nov, 2022

有限反馈下交互式教授逆强化学习器

我们研究了在顺序决策任务中通过示范进行教学的问题，特别关注教师无法访问学习者的模型和策略，仅有由教师选择的起始状态的轨迹作为反馈的情况。我们通过有限反馈的教学过程进行形式化，并提出了解决该教学问题的算法。该算法使用了改进的主动风险价值法来选择起始状态，改进的最大因果熵算法来推断策略，并使用困难度评分比方法来选择教学示范。我们在合成的汽车驾驶环境中对该算法进行了测试，并得出结论：当学习者的反馈有限时，所提出的算法是一种有效的解决方案。

Sep, 2023