Nov, 2022

广义函数逼近下的最优保守离线强化学习增广朗格朗日方法

TL;DR本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法,以实现一般函数逼近和单策略可集中性的统计最优性,无需不确定性量化,并且通过应用增广 Lagrange 方法,保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同,本文方法证明消除了这种需求,并将规则化器重新解释为 “占用有效性的执行者”,而不是 “保守性的促进者”。