Aug, 2024

RVI-SAC:基于平均奖励的离线深度强化学习

TL;DR本研究解决了现有深度强化学习方法在持续任务中训练目标与性能指标之间的差异问题,倡导使用平均奖励标准。我们提出的RVI-SAC,通过应用RVI Q-learning进行评论员更新,引入平均奖励软策略提升定理进行行动者更新,并自动调整重置成本,实现了在终止任务中应用平均奖励强化学习的可能性。实验结果表明,RVI-SAC在Gymnasium的Mujoco任务中表现出与其他方法竞争的性能。