Nov, 2023

通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误

TL;DR深度强化学习中的估计偏差问题以及引入的解决机制,包括新的双 TD 规范化的演员 - 评论家(TDR)方法,通过结合分布学习、长 N 步替代阶段奖励(LNSS)方法等 DRL 改进,我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线,在挑战性环境中显著提升了 TD3 和 SAC 的性能,使其与 D4PG(当前领先算法)性能媲美,并且还通过平均奖励、收敛速度、学习成功率和学习方差等指标改善了 D4PG 的性能,达到了新的领先水平。