减少方差的深度强化学习奖励估计

ICLRMay, 2018

减少方差的深度强化学习奖励估计

Reward Estimation for Variance Reduction in Deep Reinforcement Learning

Joshua Romoff, Peter Henderson, Alexandre Piché, Vincent Francois-Lavet, Joelle Pineau

TL;DR该研究提出使用奖励估算方法来应对机器人学习中复杂任务中可能出现的损坏或随机奖励信号，这种方法能够提高算法的稳定性和性能表现，并且应用范围广泛。

Abstract

reinforcement learning (RL) agents require the specification of a reward signal for learning behaviours. However, introduction of corrupt or stochastic rewards can yield high variance in learning. Such corruption may be a direct result of goal misspecification, randomness in the reward

reinforcement learning corrupted reward signals variance reduction techniques reward estimation robotics

发现论文，激发创造

通过损坏的奖励通道进行强化学习

该研究论文探讨了在强化学习中出现奖励数据错误的情况，提出了一种通用的马尔可夫决策问题模型（Corrupt Reward MDP），并结合反向强化学习和半监督强化学习的策略对奖励数据错误的解决方法进行了探讨。同时指出在某些假设下通过随机化也可以部分解决奖励数据错误的问题。

May, 2017

扰动奖励的强化学习

本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略，实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。

Oct, 2018

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022

基于梯度的强化学习的最优奖励基准线

研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Jan, 2013

降低方差强化学习的控制规范化

介绍了一种基于功能正则化方法的强化学习中的高性能方案，可以相对于一个策略先验进行行为的规则化，进而获得偏差 - 方差的平衡来降低高方差的挑战，并通过自适应调整策略先验，保证稳定性和更高的学习效率

May, 2019

应用强化学习进行数据价值评估

提出了一种基于强化学习的数据估值元学习框架，可以同时学习数据价值和目标任务预测模型，能够在不同类型的数据集和应用场景中，显著提高数据价值估计精度，并在检测错误样本、领域自适应和稳健学习等方面比现有方法表现更出色。

Sep, 2019

控制变量的多保真度强化学习

研究了基于多种保真度数据的强化学习问题，并提出了一种基于控制变量的多能级估计器以及基于多功能 Monte Carlo RL 方法来提高代理人在高保真度环境中的学习性能。

Jun, 2022

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

通过变分推断实现基于结果的强化学习

通过提出一种新的变分推断形式，从环境交互中直接学习良好的奖励函数，并使用新的概率贝尔曼反演运算符，发展了一种离线策略算法来解决目标导向任务，该方法消除了手工制作奖励函数的需要，并对各种机械操纵和运动任务产生了有效的目标导向行为。

Apr, 2021