本研究为解决离线情境下强化学习(RL)的挑战,特意设计离线RL的基准测试任务,指导现实世界中数据集集合的设计与收集,并在开源代码上进行了综合评估,以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。
Apr, 2020
介绍了多任务离线强化学习中数据共享中所面对的分布移位与性能问题,并提出了一种保守数据共享的方法,应用于单任务离线强化学习,取得了在多项挑战性多任务机器人控制问题中最佳或相当的性能。
Sep, 2021
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
本文介绍CompoSuite,一个开源的模拟机器人操作基准测试,用于对复合多任务强化学习进行基准测试,评估现有单任务、多任务和组合学习算法在不同训练设置下的能力,并评估它们对未见任务的组成归纳能力,以此暴露现有RL方法在组合性方面存在的缺陷及问题。
Jul, 2022
研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略, 预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。
Apr, 2023
从先前记录的数据中学习策略是实现真实世界机器人任务的一个有前景的方向,我们提出了一个基准,其中包括:使用能力强大的强化学习代理在模拟中训练的两个任务的熟练操纵平台的大量离线学习数据的收集,在真实世界机器人系统和模拟中执行学习策略的选项以进行高效调试。我们评估了知名的开源离线强化学习算法,并为真实系统上的离线强化学习提供了可重现的实验设置。
Jul, 2023
本研究通过开发一种基于时间差分学习的系统,在机器人离线增强学习中利用大规模人类视频数据集,展示了通过视频数据集进行价值学习相较于其他视频数据学习方法更具有推广性,并且与机器人多样化数据的离线增强学习方法结合,产生在操作任务中执行更好、更稳定和具有广泛泛化性能的价值函数和策略。
Sep, 2023
通过大规模机器人数据收集,研究表明,在考虑环境因素的情况下利用组合性训练数据,可以更好地提高机器人政策的泛化能力,从而避免收集针对特定情况的数据。
Mar, 2024
本研究解决了离线强化学习算法在评估时缺乏有效基准的问题,特别是在捕捉真实世界任务属性方面。通过提出一个新的离线RL基准,专注于机器人的操控和运动环境的现实模拟,并融合多种数据源,研究展现了其在离线RL和在线微调评估中的潜力和实用价值。此基准有望推动离线RL和平滑微调算法的进一步进展。
Aug, 2024
本研究解决了在离线强化学习中,由于任务数据质量差异导致的多任务最优策略获取困难的问题。提出了一种基于技能的多任务强化学习技术,通过联合学习共享知识与任务分解,利用Wasserstein自编码器有效地将技能和任务映射到同一潜在空间,进而提升模型性能。实验结果表明,该方法在不同质量数据集的混合配置下具有较强的鲁棒性,并在多项机器人操作和无人机导航任务中超越了现有最先进算法。