使用时序差分方法直接估计 λ 返回的方差

Jan, 2018

使用时序差分方法直接估计 λ 返回的方差

Directly Estimating the Variance of the λ-Return Using Temporal-Difference Methods

Craig Sherstan, Brendan Bennett, Kenny Young, Dylan R. Ashley, Adam White...

TL;DR本文提出了一种使用强化学习中的策略评估方法来直接估计 '\lambda-return' 的方差的方法，与现有方法相比，其方法更简单且更稳健。

Abstract

This paper investigates estimating the variance of a temporal-difference learning agent's update target. Most reinforcement learning methods use an estimate of the value function, which captures how good it is for the agent to be in a particular state and is mathematically expressed as

temporal-difference learning value estimation {\lambda}-return variance estimation reinforcement learning

发现论文，激发创造

没有学习率的时序差分更新

本文从统计原理出发，推导出一种新的时序差分学习公式，相比现有的 TD (lambda) 算法，不需要使用学习速率参数 alpha，而是针对每个状态转移具有自己的学习速率，实验结果表明该算法在强化学习任务中表现更为优异。

Oct, 2008

折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

针对折扣奖励马尔可夫决策过程（MDP）中方差的策略评估问题，我们推导了有限样本界限，该界限在均方差意义上成立，并在使用 / 不使用正则化的尾值迭代平均值时具有高概率，而且误差的初始衰减呈指数衰减，总界限为 $O (1/t)$，其中 $t$ 是 TD 算法的更新迭代次数。此外，正则化 TD 变体的界限是通用步长。我们的界限为折扣 MDP 中的均值 - 方差优化的演员 - 评论家算法分析提供了新的途径。

Jun, 2024

线性函数逼近分布式时序差分学习的有限时间性能

本研究提出了一种分布式的 TD 算法，并对其性能进行了有限分析，探讨了对应于不同网络构型、折扣因子、步长和混合时间等因素的收敛速度和逼近精度的权衡关系。

Jul, 2019

强化学习的参数回报密度估计

本文介绍了一种用于处理统一风险管理目的的参数化收益率密度估计方法，以延伸 Bellman 方程，用 TD 学习算法估计未知环境中的收益率密度，最后用数值实验证明了该方法通过几种参数化密度估计算法实现风险敏感和稳健强化学习范式。

Mar, 2012

一种贪心方法用于适应时序差分学习的迹参数

本文提出了一种新的目标函数来优化 lambda，使用基于状态而不是时间的线性复杂度的增量式 lambda 适应算法，并在三个不同的环境中进行了实验，这些贡献是针对在现实世界问题中运用时间差异学习方法的具体步骤。

Jul, 2016

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

分位数时序差分学习在价值估计中的统计优势

本研究探讨了强化学习中基于时间差分的策略评估问题，并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论，即使从业者对返回分布的平均值以外的部分不感兴趣，QTD（能够学习返回值的完整分布）在平板设置中也可以表现出优于只预测平均返回值的方法 (如传统的 TD 学习) 的性能。

May, 2023

跨时间尺度分离价值函数

本文提出的 TD（Delta）算法是一种针对有限 horizon episodic reinforcement learning（RL）的 value function approximator，通过将长时间 horizon 的值函数划分为 components 以解决标准 TD 学习中的缺陷。

Feb, 2019

方差惩罚的在线与离线行为者 - 评论家算法

本研究提出了基于策略梯度方法的强化学习算法，通过对回报的方差进行惩罚，保证了算法的效果可靠，并在标准测试环境下展示了相应结果。

Feb, 2021

基于强化学习的离散时间均值方差策略

本文基于强化学习研究了一个基于离散时间的均值方差模型，与其在连续时间中的对应物相比，离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本，我们得出了最优投资策略，其密度函数也是高斯型的。另外，我们设计了相应的强化学习算法。模拟实验和实证分析表明，我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。

Dec, 2023