Jun, 2024

价值改进的演员评论算法

TL;DR通过在策略和价值中分别应用改进算子,本研究提出了一种对演员 - 评论家(AC)框架的通用扩展,命名为 Value-Improved AC (VI-AC),并设计了 VI-TD3 和 VI-DDPG 两个实际算法,在 Mujoco 基准测试中发现在所有环境中它们都能改进现有基准算法的性能或与其持平。