在线学习奖励函数的陷阱

Apr, 2020

Pitfalls of learning a reward function online

Stuart Armstrong, Jan Leike, Laurent Orseau, Shane Legg

TL;DR本文介绍了一种采用连续学习方法的逆向强化学习方法，旨在解决学习奖励函数与优化奖励函数通常是不同的过程，可能会导致一些问题，提出了 “不可操纵性” 和 “不可影响性” 两个理念，并证明了如果奖励函数的学习过程不可被操纵，那么就可以避免出现一些占优决策、删除学习过程和复习分已经知道的环境信息的情况。

Abstract

In some agent designs like inverse reinforcement learning an agent needs to learn its own reward function. Learning the reward function an

inverse reinforcement learning continual learning reward function unriggability uninfluenceability

发现论文，激发创造

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个 RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准 RL 和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

学习内在奖励能够捕捉什么？

研究探讨奖励函数是否可以成为有用的学习知识中心，提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明，学习奖励函数可以捕获关于长期探索和开发的知识，并且可以应用于其他类型的智能体和环境动态的变化。

Dec, 2019

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

快速学习的奖励设计

研究如何选择奖励函数以提高强化学习的学习速度，提出基于状态的奖励设计原则，并提出线性规划算法以最大化行动差距和最小化主观贴现；通过在表格环境中使用 Q 学习算法进行实验，表明设计奖励遵循一定的原则，如逐步增加接近目标奖励，可以加速学习。

May, 2022

策略优化中的不变性和奖励学习中的部分识别性

研究奖励学习中数据来源的可识别性，通过设计和选择数据来源，分析数据来源和后续任务的不变性，从而提高政策优化的性能

Mar, 2022

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

学习策略梯度方法的内部奖励

本文中，研究了在序列决策任务中，优化奖励函数对于强化学习的性能具有重要意义，提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法，并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。

Apr, 2018