当数据几何遇上深度函数：泛化离线强化学习

May, 2022

当数据几何遇上深度函数：泛化离线强化学习

Distance-Sensitive Offline Reinforcement Learning

Jianxiong Li, Xianyuan Zhan, Haoran Xu, Xiangyu Zhu, Jingjing Liu...

TL;DR研究了基于深度Q函数的强化学习中的策略学习问题，提出了一种新的方法Distance-sensitive Offline RL with better GEneralization（DOGE），该方法结合了数据几何和深度函数逼近器，使用状态条件的距离函数作为策略约束，有效解决了现有方法中过度保守导致泛化性能下降的问题。实验证明，与现有方法相比，DOGE算法在D4RL评测基准上表现更好，并且理论分析证明了该方法的优越性。

Abstract

In offline reinforcement learning (RL), one detrimental issue to policy learning is the error accumulation of deep q function in out-of-distribution (OOD) areas. Unfortunately, existing offline RL methods are oft

发现论文，激发创造

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线RL算法相当的性能。

Jun, 2021

基于不确定性的离线强化学习与多样化Q集成

本文提出了一种基于不确定性的离线强化学习方法，考虑Q值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员-批评家算法，该算法在大多数D4RL基准测试中实现了最先进的性能。

Oct, 2021

基于隐式Q学习的离线强化学习

提出了一种名为Implicit Q-learning (IQL)的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询Q函数的情况下改进策略。该方法在离线强化学习标准基准D4RL上表现出了最先进的性能。

Oct, 2021

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

离线强化学习中的温和保守型Q学习

提出了一种保守但足够保证泛化性的离线学习算法Mildly Conservative Q-learning (MCQ)，其中通过分配适当的伪Q值来积极地训练OOD动作，在D4RL数据集上实验结果表明MCQ相对于之前的工作取得了显着的性能提升和优异的泛化能力。

Jun, 2022

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在D4RL Mujoco和Adroit数据集上进行了实验验证。

Oct, 2022

离线强化学习的置信度条件值函数

本文提出了一种新的学习价值函数的方法，即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习，并在评估时动态地选择其中一种，以控制置信度水平。该方法可通过将现有算法的Q函数置信度化来实现，并能在任何期望的置信度下产生真实值的保守估计。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。

Dec, 2022

离线增强学习与在线策略Q函数规范化

提出了两种算法，利用行为策略的Q函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在D4RL基准测试中表现出良好的性能。

Jul, 2023

基于度量学习的目标条件离线强化学习

我们通过提出一种新的优化目标，在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中，近似计算最优值函数。实验结果表明，我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法，并且在处理高维观测和多目标任务方面也表现出很好的效果。

Feb, 2024