Jul, 2023

离线增强学习与在线策略 Q 函数规范化

TL;DR提出了两种算法,利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在 D4RL 基准测试中表现出良好的性能。