等变离线强化学习
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
我们提出了一种新的方法来解决离线强化学习中的泛化问题,通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变,使用熵正则化增加等变集合并用结果转变的样本增强数据集,最后基于增强数据集使用现成的离线强化学习算法离线学习新策略,实验证明该方法可以大大提高对环境进行测试时的策略效果。
Sep, 2023
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
我们提出了一种自适应的行动量化方案,通过使用 VQ-VAE 学习状态条件的行动量化,避免了行动空间的指数爆炸问题,并通过离线强化学习方法在基准测试中改进了性能,同时在 Robomimic 环境中的复杂机器人操作任务中,离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。
Oct, 2023
离线强化学习中,数据损坏对性能的影响是一个重要问题,本研究通过实证和理论分析发现,隐式 Q 学习 (IQL) 表现出很强的抗数据损坏能力,其监督策略学习机制是关键因素之一。为解决 Q 函数在动力学方面受到的影响,研究引入鲁棒统计学和 Huber 损失函数来处理重尾数据,并利用分位数估计器平衡受损数据和学习稳定性,提出了一个更加鲁棒的离线强化学习方法,命名为鲁棒 IQL (RIQL)。大量实验表明,在各种数据损坏情况下,RIQL 表现出极高的鲁棒性能。
Oct, 2023
该论文提出一种名为 RFQI 的稳健强化学习算法,使用离线数据集来优化策略,在标准条件下该算法能够学习到近乎最优的稳健策略,并且在标准基准测试问题上展现出卓越的性能表现。
Aug, 2022
从先前记录的数据中学习策略是实现真实世界机器人任务的一个有前景的方向,我们提出了一个基准,其中包括:使用能力强大的强化学习代理在模拟中训练的两个任务的熟练操纵平台的大量离线学习数据的收集,在真实世界机器人系统和模拟中执行学习策略的选项以进行高效调试。我们评估了知名的开源离线强化学习算法,并为真实系统上的离线强化学习提供了可重现的实验设置。
Jul, 2023
该研究使用 DQN 重放数据集研究了离线强化学习,提出了随机集合混合(REM)算法以促进泛化,得到比经过完全训练的 DQN 代理更好的结果。这表明,针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。
Jul, 2019
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
Oct, 2021