Jun, 2024

CDSA:一种面向离线强化学习的保守去噪评分算法

TL;DR分布偏移是离线强化学习中的一个主要障碍,为了避免高估罕见或未见动作,需要将学得的策略与行为策略的差异最小化。与以往保守的离线强化学习算法相比,我们提出使用从预训练的离线强化学习算法生成的数据集密度的梯度场来调整原始动作,解耦了保守性约束和策略,从而使广泛的离线强化学习算法受益。我们提出了基于 Conservative Denoising Score 的算法(CDSA),它利用去噪得分模型来建模数据集密度的梯度,而不是数据集密度本身,在确定性和连续的 MDP 环境中提供了更准确和高效的方法来调整预训练策略生成的动作。实验结果表明,我们的方法显著提高了 D4RL 数据集中基线算法的性能,并证明了我们模型在不同任务中基于不同预训练离线强化学习策略的泛化性和即插即用能力,同时验证了代理经过我们方法后表现出更高的风险规避能力,并展示了它在不同任务上的有效泛化能力。