离线技能扩散的稳健策略学习
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023
利用 Skill-Critic 算法,结合高层技能选择来优化低级和高级策略,通过离线演示数据学习到的潜在空间来指导联合策略优化,提高在多个稀疏环境中的决策性能。
Jun, 2023
SkillDiffuser 是一个集成可解释技能学习与条件扩散规划的分层规划框架,用于从高级指令生成连贯和长程轨迹,在复杂任务中尤其对需要多个连续技能的情况具有挑战性。
Dec, 2023
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
Jun, 2024
通过 Diffusion-guided Diversity(DIDI)这种新方法,提出了一种离线行为生成的方法,该方法旨在从混合的无标签离线数据中学习多样化的技能,通过使用扩散概率模型作为先验知识来指导学习过程并规范策略,通过优化考虑多样性和扩散引导规范化的联合目标,鼓励出现多样的行为同时保持与离线数据的相似性,实验结果表明 DIDI 在四个决策制定领域(推、厨房、人形和 D4RL 任务)中发现了多样化和可区分性的技能,还介绍了技能拼接和技能插值,突显了学习技能空间的通用性,进一步,通过融合外部奖励函数,DIDI 实现了基于奖励的行为生成,促进了从次优数据中学习多样化和最优行为的能力。
May, 2024
强化学习中的多样技能学习,使用混合专家方法和最大熵目标优化每个专家的上下文分布,以激励在相似情境中学习多样技能。利用基于能量的模型来表示每个专家的上下文分布,通过标准策略梯度目标有效地训练它们,进一步解决了环境未知上下文概率空间中的难以处理的不连续性和多模态问题,通过在挑战性的机器人模拟任务中展示,Di-SkilL 可以学习出多样且高效的技能。
Mar, 2024
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而,它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法,将状态重构特征学习纳入最近的一类扩散策略中,以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习,从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能,实现了最先进的结果。
Jul, 2023
我们提出了一种新的离线强化学习方法,利用引导扩散世界模型来直接评估离线目标策略,并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示,在只有随机或中等专家示范的情况下,我们的方法相较于现有基线表现显著改进,从而需要改进世界模型与离线策略评估之间的对齐。
May, 2024
离线强化学习研究了优化策略的方法,使用扩散模型进行模拟,通过首选动作优化提高性能,在稀疏奖励任务中表现出竞争力或卓越性能,同时证明了抗噪声偏好优化的有效性。
May, 2024
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程的稳定性,并可以潜在地实现探索增强。
Nov, 2022