Jul, 2022

多频率离线强化学习

TL;DR研究离线机器人数据的异构性,着重于不同控制频率下离线数据的学习,提出一种简单且有效的方法,通过对 Q 值更新速度的保持一致性平衡 Q 值传播,最终在三个模拟机器人控制问题中显著提高算法性能。