May, 2024
扩散演员-评论家:将受约束策略迭代形式化为离线强化学习的扩散噪声回归
Diffusion Actor-Critic: Formulating Constrained Policy Iteration as
Diffusion Noise Regression for Offline Reinforcement Learning
TL;DR这篇论文介绍了一种名为Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在D4RL基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。