Aug, 2023

基于序列建模的强化学习离策略评估中使用双重策略估计的统计高效方差缩减

TL;DR提出了一种利用线下序列建模和线下强化学习相结合的双策略估计 (DPE) 的强化学习算法,具有统计上证明的方差降低性质,应用于多个 OpenAI Gym 中的任务,并在 D4RL 基准测试中取得了性能改进,优于基线方法,展示了序列建模强化学习中双策略估计的优势。