ICLRNov, 2022

离线强化学习的行为先验表示学习

TL;DR该研究提出了一种名为 BPR 的学习状态表示的简单有效方法,结合离线 RL 算法在多个控制基准测试中表现出明显的改进,其理论上可以实现保守算法的策略改进保证或产生策略值下限的算法。