策略性保守型 Q 学习
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。
Jun, 2022
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
Oct, 2021
我们提出了一个新颖的多智能体离线强化学习算法,名为 CounterFactual Conservative Q-Learning (CFCQL),通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响,并在多个环境中进行了实验验证。
Sep, 2023
本文提出了一种新的学习价值函数的方法,即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习,并在评估时动态地选择其中一种,以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现,并能在任何期望的置信度下产生真实值的保守估计。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。
Dec, 2022
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术,用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题,同时还能在性能和鲁棒性上实现权衡,并取得了非常好的表现。
Jun, 2022
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种 Q 函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL 具有更好的性能表现。
Feb, 2022
我们提出了一种自适应的行动量化方案,通过使用 VQ-VAE 学习状态条件的行动量化,避免了行动空间的指数爆炸问题,并通过离线强化学习方法在基准测试中改进了性能,同时在 Robomimic 环境中的复杂机器人操作任务中,离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。
Oct, 2023
本文提出了一种新颖的基于离线数据初始化的强化学习 (RL) 初始值学习框架,称作 Cal-QL,该方法可以快速优化在离线数据上学习的策略,并在探索困难的情况下进行预训练,实验证明该方法在 10/11 个测试任务中超过了现有成熟方法。
Mar, 2023