离线强化学习中的温和保守型 Q 学习

Jun, 2022

离线强化学习中的温和保守型 Q 学习

Mildly Conservative Q-Learning for Offline Reinforcement Learning

Jiafei Lyu, Xiaoteng Ma, Xiu Li, Zongqing Lu

TL;DR提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ)，其中通过分配适当的伪 Q 值来积极地训练 OOD 动作，在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。

Abstract

offline reinforcement learning (RL) defines the task of learning from a static logged dataset without continually interacting with the environment. The distribution shift between the learned policy and the behavi

offline reinforcement learning conservative q-learning distribution shift out-of-distribution actions generalization ability

发现论文，激发创造

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

离线多智能体强化学习的反事实保守 Q 学习

我们提出了一个新颖的多智能体离线强化学习算法，名为 CounterFactual Conservative Q-Learning (CFCQL)，通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响，并在多个环境中进行了实验验证。

Sep, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

MICRO: 基于模型的离线强化学习与保守贝尔曼算子

提出了一种新的基于模型的离线学习算法 MICRO，通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡，可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法，对敌对扰动也相当稳健。

Dec, 2023

离线强化学习的置信度条件值函数

本文提出了一种新的学习价值函数的方法，即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习，并在评估时动态地选择其中一种，以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现，并能在任何期望的置信度下产生真实值的保守估计。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。

Dec, 2022

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

针对离线强化学习的轻度限制评估策略

本研究提出了一种轻度限制的评估策略 (MCEP)，用于测试时推断，并基于 TD3-BC 和 AWAC 算法进行实例化，在 MuJoCo 运动任务上取得了竞争性结果。

Jun, 2023

保守型离线分布式强化学习

提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC，通过对预测收益分位数的度量来适应分布式强化学习，证明 CODAC 学习一个保守收益分布，并在机器人导航任务上成功地学习了风险厌恶策略，表现优于 D4RL MuJoCo 基准测试的方法。

Jul, 2021

RORL: 基于保守平滑的强化学习离线稳健性算法

本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术，用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题，同时还能在性能和鲁棒性上实现权衡，并取得了非常好的表现。

Jun, 2022