Oct, 2023
离线强化学习中 Q 值离散度的理解、预测和改善
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL
Yang Yue, Rui Lu, Bingyi Kang, Shiji Song, Gao Huang
TL;DR在离线增强学习中,离线 Q 值估计的发散问题一直是一个突出的问题。本研究通过对机制的全面理解和对模型架构的改进,提出了解决发散问题的新途径,其中包括基于离线 RL 的自激励模式和通过 LayerNorm 架构提升性能。