分位数时序差分学习在价值估计中的统计优势

ICMLMay, 2023

分位数时序差分学习在价值估计中的统计优势

The Statistical Benefits of Quantile Temporal-Difference Learning for Value Estimation

Mark Rowland, Yunhao Tang, Clare Lyle, Rémi Munos, Marc G. Bellemare...

TL;DR本研究探讨了强化学习中基于时间差分的策略评估问题，并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论，即使从业者对返回分布的平均值以外的部分不感兴趣，QTD（能够学习返回值的完整分布）在平板设置中也可以表现出优于只预测平均返回值的方法 (如传统的 TD 学习) 的性能。

Abstract

We study the problem of temporal-difference-based policy evaluation in reinforcement learning. In particular, we analyse the use of a dist

temporal-difference-based policy evaluation reinforcement learning quantile temporal-difference learning return distribution

发现论文，激发创造

分布式时间差分的统计效率

本文研究分布增强学习中的分布策略评估问题，并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能，通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系，同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。

Mar, 2024

关于时序差分学习的统计优势

本文介绍了使用 TD 方法估计值函数的优势，即使用一种新的度量方法 - 问题的轨迹跨越时间，可以在一定程度上提高两个状态的值差的测量准确性。

Jan, 2023

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

非线性分布式梯度时序差分学习

提出了分布式渐进时间差分（TD）学习的变体，并设计了新的分布式 GTD2 和分布式 TDC 算法，以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。

May, 2018

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

卡尔曼时差法

介绍了一个新的近似框架，即卡尔曼时间差异（KTD）框架，用于解决强化学习中估值函数的扩展问题，并提供了解决确定性和随机性马尔可夫决策过程的 KTD 和 XKTD 算法，证明了其收敛性和比现有算法更好的性能。

Jan, 2014

优先级时间差分学习

在 TD 学习中，提出一种重新加权状态的方法，在更新方程中考虑到其重要性和价值估计的可靠性，证明此方法在线性函数逼近下收敛，并在实验中与其他 TD 方法进行比较。

Jun, 2021

使用双 Expectile-Quantile 回归的分布强化学习

本篇论文提出了一种将 expectiles 和 quantiles 相结合的方法，用于表示回报的分布，该方法充分利用了它们在估计分布方面的独特性质，相较于先前的基于 quantile 或 expectile 的算法在 MuJoCo continuous control benchmark 上表现更好。

May, 2023

时序差异学习在罕见事件预测中的令人惊讶的效率

我们定量地评估了强化学习中政策评估的时间差异（TD）学习与直接或蒙特卡罗（MC）估计器的效率，重点在于对罕见事件的相关数量的估计。我们证明了有限状态马尔可夫链中最小二乘 TD（LSTD）预测相较于 MC 能够更有效地实现相对准确性，并且通过简单的数量来验证了 LSTD 估计器的中心极限定理和相对渐近方差的上界。利用这个界限，我们证明了即使在罕见事件的时间尺度和 MC 估计器的相对准确性对于状态数都是指数级增长的情况下，LSTD 仍然能够以仅与状态数呈多项式级增长的马尔可夫链观测转换总数维持固定水平的相对准确性。

May, 2024