Feb, 2024

节俭的演员-评论家: 使用独特经验的高效离策略深度强化学习

TL;DR通过选择唯一的样本并将其添加到重放缓冲区,以减小缓冲区大小并保持样本的独立和等分布性的目标,本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集,将状态空间划分为一组抽象状态,并通过使用核密度估计量选择具有唯一状态-奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员-评论家算法比纯粹的离策略演员-评论家算法收敛更快。此外,我们通过与Gym环境中的两种最先进的演员-评论家强化学习算法进行比较来评估我们的方法。实验结果表明,与基准算法相比,我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小,同时实现更快的收敛或更好的奖励积累。