通过一步将噪声转化为动作,我们提出了一种名为 CPQL 的新型时间效率方法,解决了扩散模型在更新时的时间效率和准确性指导方面的问题,从而实现了脱机强化学习的策略改进,并可以无缝地扩展到在线强化学习任务中,最终实验结果表明,CPQL 在 11 个脱机任务和 21 个在线任务中取得了新的最高性能,推理速度相比 Diffusion-QL 提高了近 45 倍。
Oct, 2023
通过强化学习调优一致性模型,我们提出了一种能够针对任务特定奖励实现快速训练和推理的框架,该框架名为迭代学习一致性模型(RLCM)。与使用提示进行训练的强化学习调优扩散模型相比,RLCM 训练速度更快,根据奖励目标改进了生成的质量,并通过最多两个推理步骤生成高质量图像的推理过程加速。
Mar, 2024
我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上,同时仍保持着最先进的性能。
本文利用扩散概率模型提出了一种新的随机策略表示方法,并证明了它对于多模态分布的优越性,进而应用到无模型在线强化学习中,提出 DIPO 算法,在标准连续控制 Mujoco 基准中取得了显著优势。
May, 2023
本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning),与行为克隆和策略改进的耦合均有助于实现出色的性能,证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。
Aug, 2022
离线强化学习研究了优化策略的方法,使用扩散模型进行模拟,通过首选动作优化提高性能,在稀疏奖励任务中表现出竞争力或卓越性能,同时证明了抗噪声偏好优化的有效性。
May, 2024
通过一项快速推断的 Consistency Policy 方法,本研究提出了一种在资源受限的机器人系统中实现低延迟决策的有效替代 Diffusion Policy 的学习视觉动作控制方法。通过在已训练的 Diffusion Policy 中强制实施自我一致性,从而获得 Consistency Policy,并在六个仿真任务和两个真实世界任务上与 Diffusion Policy 和其他相关加速方法进行比较,结果显示 Consistency Policy 相比其他方法可以提高一个数量级的推断速度并保持竞争性的成功率。
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而,它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法,将状态重构特征学习纳入最近的一类扩散策略中,以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习,从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能,实现了最先进的结果。
Jul, 2023
本研究提出使用扩散模型来压缩行为多样性强化学习(QD-RL)中成千上万个策略,将存档压缩到单个生成模型中,达到 13 倍的压缩比例,同时恢复 98% 的原始奖励和 89% 的覆盖率。
本文展示了一种简单的表示学习方法:只依赖于通过潜在时间一致性训练的潜在动态模型,既可以在计划类的强化学习中使用,也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法,并在样本效率上达到了模型类方法的水平。
Jun, 2023