Jul, 2021

保守型离线分布式强化学习

TL;DR提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC,通过对预测收益分位数的度量来适应分布式强化学习,证明 CODAC 学习一个保守收益分布,并在机器人导航任务上成功地学习了风险厌恶策略,表现优于 D4RL MuJoCo 基准测试的方法。