Dec, 2023

通过两阶段KL惩罚实现保证的信任区域优化

TL;DR应用KL惩罚本身几乎足以强制执行信任区域,在实践中通过少于5%的额外梯度步骤引入"修复"阶段足以保证在每个策略更新时执行信任区域,产生与其他信任区域方法相竞争的结果。