Feb, 2024

离线强化学习中的熵正则化扩散策略与 Q - 集合

TL;DR这篇论文介绍了用于离线强化学习的训练扩散策略的先进技术。核心是一种均值回归的随机微分方程 (SDE),它将复杂的动作分布转化为标准的高斯分布,然后在已知环境状态的条件下采样动作,这类似于典型的扩散策略。我们证明了这种 SDE 有一个解,可以用来计算策略的对数概率,从而产生一个熵正则化项,改善离线数据集的探索性能。为了减轻来自分布外数据点的不准确值函数的影响,我们进一步提出了学习 Q - 集合的下界,以实现更强壮的策略改进。通过将熵正则化的扩散策略与 Q - 集合结合在离线强化学习中,我们的方法在 D4RL 基准测试中实现了最先进的性能。