化合收益降低强化学习的方差

Feb, 2024

Compound Returns Reduce Variance in Reinforcement Learning

Brett Daley, Martha White, Marlos C. Machado

TL;DR通过引入复合回报和双引导回报，本研究证明能够减小方差并提高强化学习方法的样本效率。实验证明，双引导回报可以改善 $n$ 步深度强化学习代理的样本效率，且增加的计算成本很小。

Abstract

multistep returns, such as $n$-step returns and $\lambda$-returns, are commonly used to improve the sample efficiency of reinforcement learning (RL) methods. The variance of the multistep returns becomes the limi

multistep returns compound returns variance reduction temporal-difference learning two-bootstrap returns

发现论文，激发创造

使用时序差分方法直接估计 λ 返回的方差

本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法，与现有方法相比，其方法更简单且更稳健。

Jan, 2018

方差降低的保守策略迭代

本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O（ε^-4）到 O（ε^-3）的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下，该算法在采样 O（ε^-2）次后享有 ε- 全局最优性，这改善了以前已经建立的 O（ε^-3）样本要求。

Dec, 2022

超越指数衰减求和：自动学习回报函数

本文研究如何改变回报函数的形式来增强学习最优策略，提出使用通用数学形式的回报函数，并通过元学习来以端到端的方式学习最优回报函数，在迷宫环境和多个 Atari 游戏上进行测试，实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。

May, 2019

风险厌恶信任区域优化用于奖励波动率降低

本文提出了一种新的风险评估指标 —— 奖励波动率，并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试，证明了该方法的有效性。

Dec, 2019

超越预期回报：在评估强化学习算法时考虑政策可复制性

研究表明，强化学习中存在噪音和随机性，现有的评估程序仅使用期望回报评估政策，限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标，为用户提供选择所需性能与重复性权衡的参数，并通过大量实验验证了这些指标的益处。

Dec, 2023

风险厌恶强化学习中的均值半方差策略优化

本文旨在优化均值 - semivariance（MSV）目标，提出了两种基于策略梯度理论和信任域方法的算法，通过在 MuJoCo 上的实验验证其有效性。

Jun, 2022

基于强化学习的离散时间均值方差策略

本文基于强化学习研究了一个基于离散时间的均值方差模型，与其在连续时间中的对应物相比，离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本，我们得出了最优投资策略，其密度函数也是高斯型的。另外，我们设计了相应的强化学习算法。模拟实验和实证分析表明，我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。

Dec, 2023

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

多步深度强化学习的理解：对 DQN 目标的系统研究

本论文对多步方法在深度强化学习中的表现进行了测试和分析，将包括 Retrace 和 Q-learning 等等在内的各种算法与 DQN 进行比较，在山车环境下进行了许多测试，指出需要注意调整 backup length 参数和 target network 更新的频率等细节来提高 Q-learning 等算法的性能。

Jan, 2019

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态 - 动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023