ICMLMay, 2024

自适应优势引导的策略规范化用于离线强化学习

TL;DR通过自适应优势导向的策略规范化方法(A2PR),我们能够在离线强化学习中解决样本分布外问题,通过生成匹配数据点分布的样本,有效地选择高优势动作,并在保持一定保守性的同时改进行为策略,从而达到改进策略的理论保障,以及有效减轻价值函数高估的性能差距。