Feb, 2024

化合收益降低强化学习的方差

TL;DR通过引入复合回报和双引导回报,本研究证明能够减小方差并提高强化学习方法的样本效率。实验证明,双引导回报可以改善 $n$ 步深度强化学习代理的样本效率,且增加的计算成本很小。