Feb, 2023

目标网络如何稳定时序差分法

TL;DR本研究提供了对深度强化学习中关于目标网络的理论解释,通过对拟合部分策略估计方法的形式化定义,解释了目标网络为何可以稳定 TD 学习,并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。