我们在强化学习中开发了一种在线鲁棒的策略评估过程,并基于其巴哈多表示建立了我们估计器的极限分布。此外,我们还开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了一种更多功能和可靠性的方法。最后,我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。
Oct, 2023
本文研究分布增强学习中的分布策略评估问题,并提出了非参数分布时序差分算法 (NTD) 来分析其有限样本性能,通过理论分析得出了 NTD 算法的迭代次数和估计误差之间的关系,同时也证明了 Categorical Temporal Difference Algorithm (CTD) 在 $p$-Wasserstein 距离下具有非渐近收敛性。
Mar, 2024
本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法,提出了一种新算法 EDRL,同时介绍了 ER-DQN,将 EDRL 应用在 Atari-57 游戏集上进行了评估。
Feb, 2019
本文阐述了价值分配的重要性,提出了一种基于价值分配的学习算法,并通过实证结果证明了该算法的有效性。
Jul, 2017
本研究探讨了如何通过集合及多样性实现可靠的不确定性估计和深度探索,即通过几个不同的分布投影和表现形式的集合所组成的 “分布整体学习”(distributional ensemble)来实现优秀的性能。
Jun, 2023
研究了一个基于 Wasserstein 分布的鲁棒控制策略问题,提出了一个可计算的值迭代算法和策略迭代算法,并通过动态规划和 Kantorovich 对偶理论的分析,在保证置信水平不降低的情况下,构造了一个多阶段性能保证和最优分布鲁棒控制策略。
Dec, 2018
本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布式算法 C51。
Oct, 2017
本文研究了基于经验似然和分布鲁棒解的方法进行随机优化问题的统计推断,特别关注最优值的置信区间和渐近达到精确覆盖的解决方案。我们提出了一个基于非参数 $f$- 分歧球构建的分布不确定性集合的广义经验似然框架,用于 Hadamard 可微函数和随机优化问题,从而提供了一个有原则的选择分布不确定性区域大小的方法,以实现达到精确覆盖的单侧和双侧置信区间。我们还给出了我们分布鲁棒的公式的渐近展开,表明如何通过方差来规范化问题。最后,我们证明了,我们研究的分布鲁棒公式的优化器具有与经典样本平均逼近中的优化器基本相同的一致性属性。我们的一般方法适用于快速混合的平稳序列,包括几何上遗传的 Harris 递归马尔科夫链。
Oct, 2016
基于模型的贝叶斯强化学习视角,本研究旨在学习马尔科夫决策过程中基于参数(认知)不确定性引发的值函数后验分布的不确定性,通过引入一个 Bellman 算子,我们提出了 Epistemic Quantile-Regression (EQR) 算法,该算法学习了一个值函数分布,可用于策略优化,在几个连续控制任务中进行评估,表现优于已建立的基于模型和无模型算法。
Aug, 2023
本论文提出了两种模型无关的算法,分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中,这些算法的理论发现和效率得到了证实。
May, 2023