ICMLOct, 2022

强化学习中策略优化的 Bootstrap 优势估计

TL;DR本文提出了一种基于数据增强的优势估计方法,该方法基于 bootstrap 方法计算优势估计,并用于学习和更新策略和价值函数,有效地提高了累积奖励和未知环境的测试性能。