ICMLJun, 2022

基于乐观的线性支持和继承特征的最优策略转移

TL;DR介绍了一种基于 SF 的新算法,它允许 RL 代理结合现有策略,并在任意新问题上直接识别出最优策略,无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为,且性能优于现有竞争算法。