Jun, 2020

AWAC: 利用非在线数据集加速在线强化学习

TL;DR本文介绍一种可在实际机器人控制中应用的,将过往数据和在线学习相结合的策略,使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。