从过去到未来:重新思考资格追踪
采用资格追踪技术对现有算法进行了系统的改进,并提出了新的扩展算法,比较实验结果表明标准的 on-policy 和 off-policy LSTD(λ)/LSPE(λ)算法以及如果特征空间维度太大不能使用最小二乘法则选择 TD(λ)算法最佳。
Apr, 2013
本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法,通过估计给定一组状态下多种策略的价值,实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明,该方法的理论和实际效果均优于传统方法。
Feb, 2020
本文介绍基于时间差异的强化学习理论,讨论了继承状态和与目标有关的价值函数模型的应用,并提供了适用于离散或连续环境下的迭代算法,其中 Bellman-Newton 操作符编码环境中路径的组合形成性,提供状态的两个典型表示,并提供函数的真实更新确保了渐进收敛,不依赖于环境的速率。
Jan, 2021
本文提出了基于参数的值函数(PBVFs)的方法,它们可以在不同的策略之间进行泛化,并首次展示了如何使用 PBVF 推导出新颖的离线策略梯度定理,然后采用蒙特卡罗或时间差分方法训练 PBVF 并基于此演算出离线策略梯度(off-policy policy gradient)算法,结果表明学习到的 PBVF 能够零 - shot 学习新的超越训练阶段任何策略的好策略,另外文章也在离散和连续控制任务上进行实验,表现得与最先进的方法类似。
Jun, 2020
该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用,提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差,通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。
Apr, 2017
离线强化学习中,对于具有价值函数的可实现性但不具备 Bellman 完备性的问题,我们提供了关于离线策略评估任务的负回答,并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性,即使原始 MDP 中的集中度系数较小且离线数据可接受,聚合的集中度系数仍可能呈指数增长,而轨迹数据相对于可接受的数据并没有额外的好处。
Mar, 2024
探究了一种名为 'Predecessor Features' 的算法,它通过维护一个近似过去积累经验和的方法,允许将时序差分误差准确地传播到比传统方法更多的前身状态中,从而大大提高了增强学习的效率和性能。
Jun, 2022