策略优化中的不变性和奖励学习中的部分识别性

Mar, 2022

策略优化中的不变性和奖励学习中的部分识别性

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning

Joar Skalse, Matthew Farrugia-Roberts, Stuart Russell, Alessandro Abate, Adam Gleave

TL;DR研究奖励学习中数据来源的可识别性，通过设计和选择数据来源，分析数据来源和后续任务的不变性，从而提高政策优化的性能

Abstract

It's challenging to design reward functions for complex, real-world tasks. reward learning lets one instead infer reward functions from data. However, multiple reward functions often fit the data equally well, even in the infinite-data limit. Prior work often considers reward functions

reward learning data sources invariances policy optimization identifiability

发现论文，激发创造

逆强化学习中的可识别性

通过使用熵正则化，我们解决了马尔科夫决策问题中的奖励函数的非可辨识性问题，并完全表征给定环境下导致特定策略的奖励函数，同时演示了在不同折扣系数或足够不同的环境下给定奖励的行动演示下未被观察到的奖励可以恢复至常量。此外，我们还提供了在有限视野内对时间同质奖励和独立于行动的奖励进行重建的普遍必要和充分条件。

Jun, 2021

约束反向强化学习中的可辨识性和泛化性

研究提出了一种强化学习的理论框架，旨在解决设计适当的奖励函数和保证学习策略的安全性两大挑战。文章从凸解析角度扩展了奖励可识别性和泛化性等方面的研究，并在约束马尔可夫决策过程中证明了真实奖励需要在常数范围内确定才能确保泛化到新的转移模型和约束条件。最后，文章在网格世界环境中验证了理论结果。

Jun, 2023

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

逆强化学习中解决不可识别性问题的研究

考虑逆强化学习的设置，其中学习者扩展了主动选择多个环境的能力，从而观察代理在每个环境中的行为。我们首先展示了，如果学习者可以在一些固定的状态和行动集上尝试任何过渡动态，那么存在一种重建代理奖励函数的算法，其理论上可能性最大，并且仅需要少量 (对数级别) 的实验。接着，我们将这个设置扩展到更加现实的情况，即学习者可能无法选择任何转移动态，而是受到一些固定环境的限制。我们将实验中得到的信息最大化问题与次模函数最大化联系起来，并展示了贪心算法是近似最优的 (对数因子)。最后，我们在一个受行为心理学启发的环境中对我们的算法进行了实证验证。

Jan, 2016

量化奖励函数的差异

本文提出一种名为 EPIC 的距离度量方法，以量化两个奖励函数之间的区别，而不需要进行策略优化步骤，该距离具有不变性，可以高效地近似，并且能够有效地预测策略训练的成功，进而较好的限制最优策略的后悔

Jun, 2020

基于偏好的奖励学习中因果混淆和奖励误识别问题

通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法，本文通过敏感度和消融分析，发现不能考虑多种因素会导致出乎意料和不良行为，如奖励误认和因果混淆等。

Apr, 2022

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

在线学习奖励函数的陷阱

本文介绍了一种采用连续学习方法的逆向强化学习方法，旨在解决学习奖励函数与优化奖励函数通常是不同的过程，可能会导致一些问题，提出了 “不可操纵性” 和 “不可影响性” 两个理念，并证明了如果奖励函数的学习过程不可被操纵，那么就可以避免出现一些占优决策、删除学习过程和复习分已经知道的环境信息的情况。

Apr, 2020

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019