Oct, 2023

强化学习中的退化策略:限制策略优化方法中的替代目标方差

TL;DR本文提出了一种适用于主流政策优化算法的强化学习框架,通过引入一种称为dropout技术的方法,避免了由于重要性采样而导致的代理目标方差的过度增加,并验证了在Atari 2600环境中,D-PPO相对于PPO算法在性能上取得了显著的改进,有效限制了训练过程中代理目标方差的过度增加。