利用贝尔曼残差最小化进行分布式离策略评估
研究了马尔可夫决策过程情景下政策价值函数的线性逼近的投影方法。分别考虑了一步时序差分计算(TD(0))和Bellman残差(BR)最小化的两种流行方法,并描述了它们的性能优劣。最终,提出了一个统一的观点,揭示了零部件投影在Bellman等式上的作用。
Nov, 2010
该研究旨在理论上和实证上比较强化学习的两个标准最优化标准,并提出了一种最小化Bellman残差的新方法来代替通常的最大化平均值的方法,实验表明直接最大化平均值比Bellman残差更好,这表明值基强化学习中通常使用的Bellman残差最小化不是一个很好的策略优化代理。
Jun, 2016
本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法,提出了一种新算法EDRL,同时介绍了ER-DQN,将EDRL应用在Atari-57游戏集上进行了评估。
Feb, 2019
本文介绍了一种基于非线性机器学习的强化学习算法,该算法使用一种新的广义均方投影贝尔曼误差作为目标函数,可提高算法的稳定性和性能。
Apr, 2021
该研究提出了一种名为“BCRL”的算法,用于学习线性Bellman完备的表示,并用于离线策略评估,同时在图像基础的连续控制任务中表现出较好的性能。
Jul, 2022
该研究分析了在线环境和脱机环境中Bellman逼近误差的分布特性,并提出了一种新的损失函数LLoss,其具有更小的方差,并且实验证实了在离线数据集中奖励应该遵循特定分布,这为进一步深入研究提供了有价值的见解。
Jul, 2023
我们提出了一个新颖的算法框架来进行分布式强化学习,基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法,提供了渐近收敛理论,并对算法在一套表格任务上的实证性能进行了研究。此外,我们展示了这种方法可以与深度强化学习简单地结合,获得一个在Arcade Learning Environment上改进了基线分布式方法的新的深度强化学习代理。
Dec, 2023
我们提出了一种新的算法,用于基于模型的分销式强化学习,经证明在逼近具有生成模型的回报分布方面是极小极大最优的(在对数因子上),解决了张等人(2023年)的一个悬而未决的问题。我们的分析为分销式强化学习的类别方法提供了新的理论结果,并引入了一种新的分销式贝尔曼方程——随机类别CDF贝尔曼方程,我们认为它具有独立的重要性。我们还提供了一个实验研究,比较了几种基于模型的分销式强化学习算法,其中对于实践者们有一些要点。
Feb, 2024
在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是MDP具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为0的情况下(称为线性贝尔曼完备性),我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下,我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外,我们证明了对于任何算法,我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比,在那些设置中,通常可以获得与建模误差线性退化的性能。
Jun, 2024
本研究针对传统离策略强化学习在处理标量奖励时的局限性,提出了一种分布式强化学习的新方法。通过证明Bellman算子的收缩性及高维奖励的有效近似,研究成果使得以前无法解决的问题得以通过新的算法进行处理,具有重要的理论和实践意义。
Aug, 2024