Feb, 2023

离线强化学习中的保守状态值估计

TL;DR本文提出了一种名为 CSVE 的保守状态价值估计方法,利用惩罚来学习保守的V函数,应用于实际的演员-评论家算法中,具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中,我们的方法表现比保守Q函数学习方法更好,并在最近的SOTA方法中占据了强有竞争力的地位。