采用潜空间模型的基于图像的离线强化学习
本文提出了一种基于模型的离线策略优化算法(MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
这篇论文提出了一种视觉模型驱动的强化学习方法,它学习到了一个对噪声和干扰具有弹性的潜在表示,通过鼓励表示能够最大程度地预测动态和奖励,并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力,在动态环境中能够有效运行。此外,作者还提出了一种简单的无奖励对齐过程,使得编码器能够在测试时进行快速适应,无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步,作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。
Aug, 2023
该论文介绍了一种离线强化学习的方法,使用压缩的潜在技能建模支援轨迹序列,避免外推错误,并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息,改进了信用分配,并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能,特别擅长长期,稀疏奖励任务。
Sep, 2023
标准离线强化学习算法在观测历史的条件下存在样本复杂度高的问题,然而通过引入双模拟损失函数,离线强化学习可以显式地优化该损失函数,从而在性能上得到改善。
Oct, 2023
本研究解决了离线强化学习算法在评估时缺乏有效基准的问题,特别是在捕捉真实世界任务属性方面。通过提出一个新的离线RL基准,专注于机器人的操控和运动环境的现实模拟,并融合多种数据源,研究展现了其在离线RL和在线微调评估中的潜力和实用价值。此基准有望推动离线RL和平滑微调算法的进一步进展。
Aug, 2024
本文针对离线强化学习中使用静态数据集导致的政策生成不在分布内的问题,提出了一种新的方法——约束潜在动作策略(C-LAP)。通过学习观察与动作的联合分布生成模型,将政策学习视为一个受限目标,有效地消除了对贝尔曼更新的额外不确定性惩罚需求,并显著减少了学习政策所需的梯度步骤。实验表明,C-LAP与先进方法具有竞争力,特别是在具有视觉观察的数据集上表现优异。
Nov, 2024
本研究解决了在现实世界中使用离线强化学习时,数据集需手动标注奖励标签的问题,尤其在难以确定真实状态时。我们提出一种新系统,通过使用视觉语言模型的偏好反馈自动生成奖励标签,并基于此学习策略。实验表明,该方法在复杂的机器人辅助穿衣任务中表现出色,并在仿真任务中明显优于现有基线方法。
Nov, 2024