Jun, 2021

折现因子的泰勒展开

TL;DR本研究探讨了在实际强化学习中,用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响,并发现了一族目标,可以插值两个不同贴现因子的价值函数。实验表明,使用这种框架可以提高价值函数的估计效果和策略优化更新效果,并且还提供了新的深度强化学习启发式修改策略优化算法的见解。