Jun, 2023

时差动力学的特征子空间及其在强化学习中改善价值估计的应用

TL;DR提出了一种新的深度强化学习的价值估计方法:Eigensubspace Regularized Critic(ERC),该方法可以更高效、更稳定地进行价值估计,并在DMControl基准测试中,ERC优于其他先进方法在20个任务上,具备在Q值估计和方差降低方面的显着优势。