本文研究了值估计的梯度方法在强化学习中速度较慢的原因,提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法,并介绍了主要算法 RANS 及其在经典问题中的表现。
Jan, 2023
在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下(称为线性贝尔曼完备性),我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下,我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外,我们证明了对于任何算法,我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比,在那些设置中,通常可以获得与建模误差线性退化的性能。
Jun, 2024
本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题,并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题,其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证,并分析了算法的样本复杂度。经验上,我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。
Dec, 2017
本文通过对均方误差进行理论分析,提供了过估计误差的理论上界,并提出了一种新的贝尔曼低估算子来对抗过估计现象,证明了其压缩特征。最后,基于低估算子和扩散策略模型提出了离线强化学习算法,实验证明我们的方法在 D4RL 任务上优于现有算法,验证了我们的理论分析和低估方法对离线强化学习任务的有效性。
研究在近似线性行动价值函数的情况下,基于低内在 Bellman 误差的探索问题,给出了一种算法,其高概率的遗憾上界与特征维数和 Bellman 误差有关,同时将其与先前的工作进行了比较,在线性 MDP 的情况下,证明了这个算法具有统计效率。
Feb, 2020
我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程,该方法在理论上证明具有几乎最优的遗憾,并且在计算上更高效,我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。
Oct, 2023
本论文针对非平稳 MDP 问题,提出了一种复杂度指标 Dynamic Bellman Eluder 维度和一种新的置信区间算法 SW-OPEA,通过对非平稳线性和表格 MDPs 的示例进行演示,表明该算法在小变化预算场景下性能优于现有的 UCB 类型算法,同时证明了当变化预算不显著大时,SW-OPEA 算法是可以有效地执行。
Jun, 2023
本文提出了一种新的损失函数,可以使用标准的梯度下降优化,避免了以往算法中需要双样本的问题,并可以与深度学习等函数类相结合,且在多个基准测试中表现可靠和有效。
May, 2019
我们研究了分布式离策略评估的问题,提出了一种基于期望扩展统计距离的方法来估计回报分布,并介绍了一种名为 Energy Bellman Residual Minimizer 的方法。我们在对可实现性的假设下建立了 EBRM 估计器的有限样本误差界,并通过模拟实验和与其他方法的比较验证了我们方法的优越性。
Feb, 2024
本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率,其中针对非时变线性马尔可夫决策过程(MDPs),提出了 VA-OPE 算法,使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权,并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述,而广泛的数值实验也支持了我们的理论。
Jun, 2021