May, 2024

扩散演员 - 评论家:将受约束策略迭代形式化为离线强化学习的扩散噪声回归

TL;DR这篇论文介绍了一种名为 Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过 Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在 D4RL 基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。