何时应该优先选择离线强化学习而不是行为克隆?
该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。
Dec, 2023
本研究提出了一种名为 ORIL 的方法,用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号,通过增强学习来训练机器人,相对于传统的基于行为克隆的方法,它能更好地利用未标记的经验数据,提高训练的效果。
Nov, 2020
通过利用最优和次优策略收集的数据集,我们提出了一种可扩展的基于模型的离线模仿学习算法框架,其最坏子优性与专家样本相关的时间视野呈线性,实验证明在模拟连续控制领域中,该算法始终表现优于行为克隆。
Jun, 2022
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线 RL 的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
Nov, 2020
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。
Feb, 2023
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
离线强化学习的性能问题一直存在着,本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究,发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响,同时,离线强化学习的性能问题主要还是由训练数据支持范围之外的测试状态上的策略泛化不完善所导致。本研究提出了两种简单的测试时间策略优化方法,并证明这些方法可以改善离线强化学习的性能。
Jun, 2024
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。
Oct, 2023
本文介绍了一种改进版的行为克隆方法,即 ConserWeightive Behavioral Cloning,该方法包含轨迹权重和保守正则化两个核心组件,通过提高高回报轨迹的权重和鼓励策略在数据分布附近保持稳定,从而提高条件行为克隆的可靠性,并在多个基准测试中得到良好表现。
Oct, 2022