利用贝尔曼残差最小化进行分布式离策略评估

Feb, 2024

利用贝尔曼残差最小化进行分布式离策略评估

Distributional Off-policy Evaluation with Bellman Residual Minimization

Sungee Hong, Zhengling Qi, Raymond K. W. Wong

TL;DR我们研究了分布式离策略评估的问题，提出了一种基于期望扩展统计距离的方法来估计回报分布，并介绍了一种名为Energy Bellman Residual Minimizer的方法。我们在对可实现性的假设下建立了EBRM估计器的有限样本误差界，并通过模拟实验和与其他方法的比较验证了我们方法的优越性。

Abstract

We consider the problem of distributional off-policy evaluation which serves as the foundation of many distributional reinforcement learning (DRL) algorithms. In contrast to most existing works (that rely on supr

发现论文，激发创造

计算时间差异的定点还是最小化贝尔曼残差？统一的斜投影视角

研究了马尔可夫决策过程情景下政策价值函数的线性逼近的投影方法。分别考虑了一步时序差分计算（TD（0））和Bellman残差（BR）最小化的两种流行方法，并描述了它们的性能优劣。最终，提出了一个统一的观点，揭示了零部件投影在Bellman等式上的作用。

Nov, 2010

Bellman残差是否为不良代理？

该研究旨在理论上和实证上比较强化学习的两个标准最优化标准，并提出了一种最小化Bellman残差的新方法来代替通常的最大化平均值的方法，实验表明直接最大化平均值比Bellman残差更好，这表明值基强化学习中通常使用的Bellman残差最小化不是一个很好的策略优化代理。

Jun, 2016

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法EDRL，同时介绍了ER-DQN，将EDRL应用在Atari-57游戏集上进行了评估。

Feb, 2019

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

本文介绍了一种基于非线性机器学习的强化学习算法，该算法使用一种新的广义均方投影贝尔曼误差作为目标函数，可提高算法的稳定性和性能。

Apr, 2021

学习 Bellman 完整表示以进行离线策略评估

该研究提出了一种名为“BCRL”的算法，用于学习线性Bellman完备的表示，并用于离线策略评估，同时在图像基础的连续控制任务中表现出较好的性能。

Jul, 2022

LLQL: 强化学习的逻辑似然Q-Learning

该研究分析了在线环境和脱机环境中Bellman逼近误差的分布特性，并提出了一种新的损失函数LLoss，其具有更小的方差，并且实验证实了在离线数据集中奖励应该遵循特定分布，这为进一步深入研究提供了有价值的见解。

Jul, 2023

基于均值嵌入的分布式贝尔曼算子

我们提出了一个新颖的算法框架来进行分布式强化学习，基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法，提供了渐近收敛理论，并对算法在一套表格任务上的实证性能进行了研究。此外，我们展示了这种方法可以与深度强化学习简单地结合，获得一个在Arcade Learning Environment上改进了基线分布式方法的新的深度强化学习代理。

Dec, 2023

一种具有生成模型的近似最小最大优化的分布式强化学习

我们提出了一种新的算法，用于基于模型的分销式强化学习，经证明在逼近具有生成模型的回报分布方面是极小极大最优的（在对数因子上），解决了张等人（2023年）的一个悬而未决的问题。我们的分析为分销式强化学习的类别方法提供了新的理论结果，并引入了一种新的分销式贝尔曼方程——随机类别CDF贝尔曼方程，我们认为它具有独立的重要性。我们还提供了一个实验研究，比较了几种基于模型的分销式强化学习算法，其中对于实践者们有一些要点。

Feb, 2024

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是MDP具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为0的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

高维奖励的离策略强化学习

本研究针对传统离策略强化学习在处理标量奖励时的局限性，提出了一种分布式强化学习的新方法。通过证明Bellman算子的收缩性及高维奖励的有效近似，研究成果使得以前无法解决的问题得以通过新的算法进行处理，具有重要的理论和实践意义。

Aug, 2024