CLUE: 离线强化学习的校准潜在指导
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023
该论文提出了一种名为 CLARE 的算法,该算法通过将 “保守性” 纳入学习的奖励函数并利用估计的动力学模型来解决离线逆强化学习中的奖励外推错误问题,其得到的学习奖励函数是高度可指导后续的学习,通过大量实验证明了 CLARE 相较于现有最先进算法在 MuJoCo 连续控制任务上的明显性能提升。
Feb, 2023
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。
Jun, 2021
无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法,以利用大量无标签(无回报)数据。本文提出了一种基于层次结构的算法,用于从离线数据中进行目标条件下的增强学习,并证明了该方法对估计值函数中的噪声具有鲁棒性,并且能够解决具有长时间跨度的任务。
Jul, 2023
本文提出了一种新颖的基于离线数据初始化的强化学习 (RL) 初始值学习框架,称作 Cal-QL,该方法可以快速优化在离线数据上学习的策略,并在探索困难的情况下进行预训练,实验证明该方法在 10/11 个测试任务中超过了现有成熟方法。
Mar, 2023
介绍了 CLUTR:一种新型的无监督课程学习算法,通过将任务表示和课程学习分解成两个阶段的优化,成功地克服了任务分布不稳定性的问题,提高了稳定性,并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot 推广。
Oct, 2022
离线强化学习中典型问题是分布转移问题,我们提出了一种名为 Guided Offline RL(GORL)的新方法,使用引导网络和少数专家演示样本,自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明,GORL 可在大多数离线强化学习算法上轻松安装,并实现统计上显著的性能提升。
Sep, 2023
该研究提出了一种基于模型的离线 RL 算法,该算法可扩展应用于高维视觉观测空间,通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战,并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。
Dec, 2020
本文介绍了一种新的离线强化学习算法 ICQ,它通过只信任数据集中的状态 - 动作对来有效减轻外推误差,并将其扩展到多智能体任务中,表现出明显的性能优势。
Jun, 2021
通过设计变分自编码器来学习技能,我们提出了一个基于技能的框架来增强离线强化学习,从而克服车辆规划中的长期规划挑战。通过将学到的技能作为动作,可以训练出能够进行长期推理和规划未来的最终策略,从而在 CARLA 上取得了强大的性能优势。
Sep, 2023