本文阐述了价值分配的重要性,提出了一种基于价值分配的学习算法,并通过实证结果证明了该算法的有效性。
Jul, 2017
本文提出了一种无限制统计学习方法,利用神经网络和最大均值偏差技术来匹配收益分布和 Bellman 目标,适用于分布式 RL 并在 Atari 游戏中获得了优异表现。
Jul, 2020
我们提出了一个新颖的算法框架来进行分布式强化学习,基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法,提供了渐近收敛理论,并对算法在一套表格任务上的实证性能进行了研究。此外,我们展示了这种方法可以与深度强化学习简单地结合,获得一个在 Arcade Learning Environment 上改进了基线分布式方法的新的深度强化学习代理。
Dec, 2023
本文介绍了一种分布强化学习方法,不仅仅用于估计价值函数的平均值,而是显式地建模返回的分布,通过闭合实验和文献相关得到了一些理论和算法上的结果,最后在 Atari 2600 游戏中,该算法的表现显著优于许多 DQN 的改进方案,包括相关的分布式算法 C51。
Oct, 2017
本文为分布式 RL 算法提出了一个分析 CDRL 算法的框架,证明了投影分布 Bellman 计算器在 distributional RL 中的重要性,从根本上联系 CDRL 和 Cramér 距离,并为基于样本的分类分布式 RL 算法提供了收敛性证明。
Feb, 2018
本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法,提出了一种新算法 EDRL,同时介绍了 ER-DQN,将 EDRL 应用在 Atari-57 游戏集上进行了评估。
Feb, 2019
本研究从统计效率的角度研究了分布式强化学习,重点研究了分布式策略评估问题,通过使用确定等价方法构建了一个估计器以解决样本效率问题,并研究了估计器的渐近行为。
Sep, 2023
我们提出了一种新的算法,用于基于模型的分销式强化学习,经证明在逼近具有生成模型的回报分布方面是极小极大最优的(在对数因子上),解决了张等人(2023 年)的一个悬而未决的问题。我们的分析为分销式强化学习的类别方法提供了新的理论结果,并引入了一种新的分销式贝尔曼方程 —— 随机类别 CDF 贝尔曼方程,我们认为它具有独立的重要性。我们还提供了一个实验研究,比较了几种基于模型的分销式强化学习算法,其中对于实践者们有一些要点。
Feb, 2024
通过对 tabular、线性和非线性逼近设置的分析,研究了分布式 RL 相对于标准 RL 的改进原因。在控制设置中,以经验分析比较了分布式 RL 和标准 RL 的方法,找出了分布式 RL 方法的改进来源。
Jan, 2019
在利用贝尔曼方程求解线性时态逻辑目标的规划问题中,我们发现采用两个折扣因子的替代奖励方法能够逼近时态逻辑目标的满足概率,但当一个折扣因子设为 1 时,贝尔曼方程可能存在多解从而导致期望回报评估不准确。我们提出了一个条件,使得贝尔曼方程等式有期望回报的唯一解,要求拒绝底部强连通分量内的状态的解为 0,并通过证明说明该条件足以将有折扣状态的解与无折扣状态的解分离。
Apr, 2024