ICMLJun, 2023

Warm-Start Actor-Critic: 从逼近误差到次优间隔

TL;DR本文旨在建立一个基本框架,以增进我们对 “来自离线 RL 的热启动策略是否以及何时能够显著加速在线学习” 这个问题的理解,主要研究使用先前策略进行 A-C 方法的强化学习算法时,近似误差在有界条件下对算法的影响。