Oct, 2023

离线强化学习中 Q 值离散度的理解、预测和改善

TL;DR在离线增强学习中,离线 Q 值估计的发散问题一直是一个突出的问题。本研究通过对机制的全面理解和对模型架构的改进,提出了解决发散问题的新途径,其中包括基于离线 RL 的自激励模式和通过 LayerNorm 架构提升性能。