BriefGPT.xyz
Feb, 2023
离线强化学习中的保守状态值估计
Conservative State Value Estimation for Offline Reinforcement Learning
HTML
PDF
Liting Chen, Jie Yan, Zhengdao Shao, Lu Wang, Qingwei Lin...
TL;DR
本文提出了一种名为 CSVE 的保守状态价值估计方法,利用惩罚来学习保守的V函数,应用于实际的演员-评论家算法中,具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中,我们的方法表现比保守Q函数学习方法更好,并在最近的SOTA方法中占据了强有竞争力的地位。
Abstract
offline reinforcement learning
faces a significant challenge of
value over-estimation
due to the distributional drift between the dataset and the current learned policy, leading to learning failure in practice. T
→