Jun, 2021

策略微调:连接高样本效率离线与在线强化学习

TL;DR本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题——在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程(MDP) 中解决了这个问题。我们还提出了一个新的混合离线/在线策略微调算法,达到了更好的样本复杂度。