Q - 函数之差的正交估计
提出了两种算法,利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在 D4RL 基准测试中表现出良好的性能。
Jul, 2023
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
Oct, 2021
我们提出了一个新颖的多智能体离线强化学习算法,名为 CounterFactual Conservative Q-Learning (CFCQL),通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响,并在多个环境中进行了实验验证。
Sep, 2023
使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用,它结合了各种具有非线性和非凸结构的模型,能够显著提高算法性能;本文分析了一种最悲观的算法,并证明这种方法的有效性,为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。
Oct, 2022
混合符号奖励环境中,重新考虑原有策略更新方法的安全性,通过解决数值估计误差的问题和不显式地最大化 Q 值的方法,提出了新的离策略演员 - 评论家方法,以提高深度强化学习算法在连续动作空间中的学习效果。
Nov, 2023
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法,提出了 DSEC oracle 概念,该算法使用多项式数量的轨迹返回近似最优策略,并可用于设计和分析具有一般函数逼近的强化学习算法。
Jun, 2019
离线强化学习面临分布偏移和不可靠价值估计,本文提出了一种新策略,采用多样化的随机化值函数估计 $Q$ 值的后验分布,并应用适度的价值惩罚方法来确定鲁棒的不确定性量化和 $Q$ 值的较低置信区间。通过提高随机化值函数的多样性并引入一种多样性正则化方法,可以减少所需的网络数量,从而实现可靠的价值估计和有效的策略学习。理论分析表明,在线性 MDP 假设下,我们的方法能够恢复出经过证明的高效的较低置信区间惩罚。大量的实证结果也证明,我们提出的方法在性能和参数效率方面明显优于基准方法。
Apr, 2024
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。
Jun, 2022