AAAIDec, 2023

离线到线上强化学习中 Q 值估计的视角

TL;DR离线到在线强化学习(O2O RL)旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究 O2O RL 中仍存在的挑战,并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的 Q 值估计。为解决这个问题,我们采用了两种技术:扰动值更新和增加 Q 值更新的频率。我们的实验证明,提出的方法 SO2 显著缓解了 Q 值估计问题,并相对于最先进的方法改进了性能高达 83.1%。