Aug, 2023

通过持续行动的可变时间离散化的演员 - 评论家方法

TL;DR提出了一种名为 SusACER 的离策略强化学习算法,它结合了不同时间离散化设置的优势,通过始初稀疏时间离散化逐渐转换为精细离散化,在机器人控制环境中进行分析,证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D 等场景中优于现有技术。