强化学习中一步正则化与评论员正则化之间的联系
通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。
Mar, 2024
本文探讨了离线强化学习领域中的一个策略改进方法,使用 on-policy Q 估计的行为策略,通过一步有限制 / 正则化的策略改进,能在 D4RL 基准测试中表现优于迭代算法。我们认为,迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。
Jun, 2021
本文介绍了一种名为 TD 正则化 actor-critic 方法的算法,它可以通过对演员学习目标进行正则化来改善算法的稳定性,并取得更好的性能表现。
Dec, 2018
通过深度强化学习的控制任务,对传统正则化技术在多种优化算法中的应用及效果进行综合研究,发现传统的正则化技术能够改善学习效果,特别在较难的任务中,说明正则化有助于强化学习中的泛化表现。
Oct, 2019
通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价,并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性,以及有限步策略评估版本等价于不精确的 Newton 方法。
Oct, 2023
最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中的下游信息,通过有监督的蒙特卡洛值误差预训练,提高了效率。我们发现在标准基准测试中,我们能够将考虑的离线算法的训练时间减少一半以上,并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性,提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC,对行为策略和评论家进行正则化,更可靠地改进行为策略。代码可在此 URL 找到。
Jun, 2024
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。
May, 2012