RVI-SAC：基于平均奖励的离线深度强化学习

Aug, 2024

RVI-SAC：基于平均奖励的离线深度强化学习

RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning

Yukinari Hisaki, Isao Ono

TL;DR本研究解决了现有深度强化学习方法在持续任务中训练目标与性能指标之间的差异问题，倡导使用平均奖励标准。我们提出的RVI-SAC，通过应用RVI Q-learning进行评论员更新，引入平均奖励软策略提升定理进行行动者更新，并自动调整重置成本，实现了在终止任务中应用平均奖励强化学习的可能性。实验结果表明，RVI-SAC在Gymnasium的Mujoco任务中表现出与其他方法竞争的性能。

Abstract

In this paper, we propose an Off-Policy Deep Reinforcement Learning (DRL) method utilizing the Average Reward criterion. While most existi

发现论文，激发创造

插值策略梯度：将在线策略和离线策略梯度估计相结合的深度强化学习方法

本文系统地研究了深度强化学习中混合使用on-policy和off-policy更新方法，设计了一种基于控制变量方法的算法来有效结合两者，探讨了不同更新方法的优缺点和影响因素，并在多个开源深度控制测试中展示出了本算法的先进性。

Jun, 2017

软最大熵深度强化学习中的Stochastic Actor-Critic算法

本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法，该算法通过离策略更新和稳定的随机演员-评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

软性演员-评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员-评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

增强型软演员-评论家算法：强化最近经验，不遗忘过去

Soft Actor-Critic算法利用最大熵强化学习实现无序策略的演员-评论家深度强化学习，结合灵活的离线更新和演员评论家框架，通过实验表明强化学习离线采样技术Emphasizing Recent Experience (ERE)能进一步提高SAC的效率，在混合ERE和Priority Experience Replay方法中得到了更好的结果。

Jun, 2019

最大熵深度强化学习的软策略梯度方法

本文提出了一种新的深度强化学习算法，利用基于熵正则化的期望回报目标推导出软策略梯度，将其与软Bellman方程相结合，得到了名为DSPG的最大熵深度强化学习算法，该算法采用双重采样方法确保学习的稳定性，有效提高了表现，克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。

Sep, 2019

基于策略的深度强化学习在平均回报准则下的应用

本研究针对均值回报的强化学习问题，提出了一种考虑策略改善和深度强化学习相结合的新算法 ATRPO，实验结果表明该算法在 MuJuCo 环境中不仅能够有效应对较为复杂的任务，而且在长期平均回报上的表现也优于传统算法 TRPO。

Jun, 2021

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制/正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

无需重要性采样的Actor-Critic方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

基于确定性策略搜索的离线平均回报演员-评论家算法

本文研究了强化学习中平均回报和折扣回报的区别，提出了面向平均回报的策略梯度定理，同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) 算法。实验结果表明，ARO-DDPG 在 MuJoCo 环境中优于现有的基于平均回报的策略方法。

May, 2023

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化Q值的方法，提出了新的离策略演员-评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023