Apr, 2023

利用离线数据加速程序生成环境下的强化学习

TL;DR研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略, 预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。