基于扩散的离线强化学习中的长时程回滚动态模型
本文提出 MADiff,一种基于关注力扩散模型的创新多智能体学习框架,用于模拟多智能体间的复杂协调,以发挥扩散的强大的生成能力。实验证明 MADiff 相比基线算法在各种多智能体学习任务中具有较高的性能。
May, 2023
我们提出了一种新的离线强化学习方法,利用引导扩散世界模型来直接评估离线目标策略,并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示,在只有随机或中等专家示范的情况下,我们的方法相较于现有基线表现显著改进,从而需要改进世界模型与离线策略评估之间的对齐。
May, 2024
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
May, 2022
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而,它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法,将状态重构特征学习纳入最近的一类扩散策略中,以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习,从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能,实现了最先进的结果。
Jul, 2023
我们介绍了 Diffusion World Model (DWM),它是一种条件扩散模型,能够同时预测多步未来状态和奖励。与传统的一步动力学模型相反,DWM 能够在单次前向传递中提供长期预测,消除了对递归查询的需求。我们将 DWM 集成到基于模型的值估计中,其中短期回报通过从 DWM 采样的未来轨迹进行模拟。在离线强化学习的背景下,DWM 可以被视为通过生成建模进行保守值正则化,或者可以被看作是一个使离线 Q 学习能够利用合成数据的数据源。我们在 D4RL 数据集上的实验验证了 DWM 对于长期模拟的稳健性。在绝对性能方面,DWM 显著超过了一步动力学模型,获得了 44%的性能提升,并实现了最先进的性能。
Feb, 2024
我们提出了一种使用扩散模型生成基于行为分布的整个轨迹,并通过目标策略引导将合成经验转移到更贴近目标策略的方法,以此代替真实数据进行离线强化学习,并在各种标准离线强化学习算法和环境中取得显著的性能改善。
Apr, 2024
本文提出了一种基于扩散的离线多智能体模型(DOM2),采用轨迹数据增广方案,可以应对环境变化,达到更好的性能、泛化能力和数据效率。实验结果表明,DOM2 在多智能体环境中和 shifted environments 下都比现有算法表现更好,并拥有更强的数据效率。
Jul, 2023
本文利用扩散概率模型提出了一种新的随机策略表示方法,并证明了它对于多模态分布的优越性,进而应用到无模型在线强化学习中,提出 DIPO 算法,在标准连续控制 Mujoco 基准中取得了显著优势。
May, 2023
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文介绍了如何使用增强学习方法直接优化扩散模型以实现人类感知的图像质量和药物效果等下游目标,并提出了一种名为去噪扩散策略优化(DDPO)的类策略梯度算法,并进行了实证及效果验证。
May, 2023