Nov, 2022

广义函数逼近下的最优保守离线强化学习增广朗格朗日方法

TL;DR本文基于边缘化重要性取样(RL)提出了一种新的离线强化学习算法,以实现一般函数逼近和单策略可集中性的统计最优性,无需不确定性量化,并且通过应用增广Lagrange方法,保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同,本文方法证明消除了这种需求,并将规则化器重新解释为“占用有效性的执行者”,而不是“保守性的促进者”。