离线技能扩散的稳健策略学习
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
本篇文章中,我们提出了一种基于离线学习的技能框架,并探索了贝叶斯非参数化与离线技能发现之间的未知联系,提出了一种无需指定技能数目的非参数化方法,结果表明该方法可以在各种环境下优于现有的离线技能学习算法。
Feb, 2022
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
该研究提出了一种Policy-guided Offline RL算法,该算法在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在离线RL的标准基准D4RL上展示了最高效的性能,并可以通过改变指导策略来轻松适应新的任务。
Oct, 2022
该论文提出了一种有效的扩散策略(EDP),用于在线学习优化策略,可以解决传统Diffusion-QL的训练效率低和与基于最大似然的RL算法不兼容的问题。研究表明,EDP可将扩散策略的训练时间缩短至5小时,在D4RL基准测试中实现了新的最先进结果。
May, 2023
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而,它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法,将状态重构特征学习纳入最近的一类扩散策略中,以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习,从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个D4RL基准任务上评估了我们模型的性能,实现了最先进的结果。
Jul, 2023
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023
使用预训练的视觉语言模型从离线数据中提取一组离散的语义相关技能,无需人工监督,通过参数化连续参数,使机器人能够学习新任务并提高样本效率和性能表现。
Jun, 2024
本研究解决了在离线强化学习中,由于任务数据质量差异导致的多任务最优策略获取困难的问题。提出了一种基于技能的多任务强化学习技术,通过联合学习共享知识与任务分解,利用Wasserstein自编码器有效地将技能和任务映射到同一潜在空间,进而提升模型性能。实验结果表明,该方法在不同质量数据集的混合配置下具有较强的鲁棒性,并在多项机器人操作和无人机导航任务中超越了现有最先进算法。
Aug, 2024