Dec, 2023
离线到线上强化学习中Q值估计的视角
A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning
TL;DR离线到在线强化学习(O2O RL)旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究O2O RL中仍存在的挑战,并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的Q值估计。为解决这个问题,我们采用了两种技术:扰动值更新和增加Q值更新的频率。我们的实验证明,提出的方法SO2显著缓解了Q值估计问题,并相对于最先进的方法改进了性能高达83.1%。