Oct, 2023

离线至在线强化学习中的超领域规划

TL;DR离线预训练与在线微调(offline-to-online 或 OtO)是与实际强化学习部署过程相匹配的范式,我们研究在线强化学习开拓问题的主要方法,其中 PTGOOD 算法在在线微调中显著提高了智能体回报,并且在少于 10k 的在线步骤中找到了最优策略。