Jun, 2023

针对离线强化学习的轻度限制评估策略

TL;DR本研究提出了一种轻度限制的评估策略 (MCEP),用于测试时推断,并基于 TD3-BC 和 AWAC 算法进行实例化,在 MuJoCo 运动任务上取得了竞争性结果。