反向奖励设计

NIPSNov, 2017

Inverse Reward Design

Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell, Anca Dragan

TL;DR设计奖励函数的困难性和可能带来的负面影响，本文介绍一种基于上下文推断真实目标的方法，以及应用该方法规避不当奖励导致的风险。实证研究表明，本方法有效减轻了误设奖励函数的负面影响，并减少了奖励欺骗的可能。

Abstract

autonomous agents optimize the reward function we give them. What they don't know is how hard it is for us to design a reward function tha

autonomous agents reward function inverse reward design risk-averse behavior reward hacking

发现论文，激发创造

主动反向奖励设计

通过与用户交互，选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计，我们的方法优于 Inverse Reward Design，且可以推断非线性奖励函数，包括可解释的线性奖励函数。

Sep, 2018

风险规避的批次主动逆向奖励设计

通过批处理逐渐优化查询的可能奖励函数的概率分布，在保证安全性的同时，提高效率和准确性，以及适应处理未知特征并对重要的 AI 模型进行调整。

Nov, 2023

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024

贝叶斯逆强化学习用于非马尔可夫奖励

从专家行为中直接推断出奖励机制（RM）的贝叶斯逆强化学习（BIRL）框架，以非 Markovian 奖励函数为基础进行了重大改进，新的奖励空间定义，将专家示范调整为包括历史，展示了计算奖励后验的方法，并提出了一种模拟退火的新修改方案来最大化后验，通过优化其推断的奖励表现出良好性能，并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。

Jun, 2024

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了 IRL 问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

逆强化学习环境设计

通过适应性设计专家演示环境，改善学习效率和鲁棒性，解决基于专家演示学习和环境动力学变化下的奖励函数学习挑战。

Oct, 2022