通过扩散行为对得分正则化策略优化
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022
本文提出了一种利用扩散模型表示策略的离线强化学习方法(Diffusion Q-learning),与行为克隆和策略改进的耦合均有助于实现出色的性能,证明了该方法在大多数D4RL基准任务中表现出卓越的性能。
Aug, 2022
该论文提出了一种有效的扩散策略(EDP),用于在线学习优化策略,可以解决传统Diffusion-QL的训练效率低和与基于最大似然的RL算法不兼容的问题。研究表明,EDP可将扩散策略的训练时间缩短至5小时,在D4RL基准测试中实现了新的最先进结果。
May, 2023
扩散模型已成为一个突出的生成模型类别,超越了以往的方法,提高了样本质量和训练稳定性。本文概述了这一新兴领域的进展,并希望激发新的研究方向。我们首先研究了当前强化学习算法面临的几个挑战,然后根据扩散模型在强化学习中的角色提出了现有方法的分类,并探讨了如何解决当前的挑战。我们进一步概述了扩散模型在各种与强化学习相关的任务中的成功应用,同时讨论了当前方法的局限性。最后,我们总结了调研结果,并提出了关于增强模型性能和将扩散模型应用于更广泛任务的研究方向。我们正在积极维护一个在GitHub上的代码仓库,用于与扩散模型在强化学习中应用相关的论文和其他资源。
Nov, 2023
我们提出了一种使用扩散模型生成基于行为分布的整个轨迹,并通过目标策略引导将合成经验转移到更贴近目标策略的方法,以此代替真实数据进行离线强化学习,并在各种标准离线强化学习算法和环境中取得显著的性能改善。
Apr, 2024
离线强化学习研究了优化策略的方法,使用扩散模型进行模拟,通过首选动作优化提高性能,在稀疏奖励任务中表现出竞争力或卓越性能,同时证明了抗噪声偏好优化的有效性。
May, 2024
这篇论文介绍了一种名为Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在D4RL基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。
May, 2024
本研究针对在线强化学习方法在资源受限或模拟环境中对实时数据的高需求这一问题,提出了一个框架,将扩散模型与近端策略优化算法结合,以生成高质量的虚拟轨迹,从而增强样本效率和探索性。实验结果表明,该方法在复杂任务中显著提升了累积奖励、收敛速度和策略稳定性,为高维复杂任务中的强化学习提供了新的理论与实践方法。
Sep, 2024
本研究针对当前生成模型在强化学习中的应用,尤其是在政策建模中存在的训练方案和优化目标的差异,提出了改进方法。文章提出了两种新的训练目标,分别为生成模型政策优化(GMPO)和生成模型策略梯度(GMPG),并在标准化实验框架下验证其有效性,展示了在多种离线强化学习数据集上具有先进的性能,提供了生成策略训练和部署的统一指导。
Dec, 2024
本文解决了离线强化学习中出界行动的危险利用风险管理问题,提出了一种名为BDPO的行为正则化RL框架,专为扩散模型设计。该框架通过逆向时间转移核的KL正则化计算,提高了策略的表达能力和稳健性,并在合成2D任务和D4RL基准的连续控制任务中展现出卓越的性能和有效性。
Feb, 2025