EMaQ：基于期望最大化Q学习算子的简便高效离线与在线强化学习

Jul, 2020

EMaQ：基于期望最大化Q学习算子的简便高效离线与在线强化学习

EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL

Seyed Kamyar Seyed Ghasemipour, Dale Schuurmans, Shixiang Shane Gu

TL;DR研究了一种基于 Expected-Max Q-Learning 的离线强化学习算法 EMaQ，通过引入新的备份操作符，获得了 EMaQ 的简化版本，该算法通过约束策略保持在行为策略的支持范围内，优于传统算法，其重要贡献包括提出离线 RL 问题中的复杂度概念、丰富的子优性边界以及对生成模型设计的重要性的实证发现。

Abstract

off-policy reinforcement learning (RL) holds the promise of sample-efficient learning of decision-making policies by leveraging past experience. However, in the offline rl setting -- where a fixed collection of i

发现论文，激发创造

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

POPO: 悲观离线策略优化

本文主要针对离线强化学习中的价值函数方法，提出了一种名为POPO的悲观离线策略优化算法，它学习了一种悲观的价值函数以获取强策略，相比于多个最先进的算法，在高维状态和动作空间中表现出色。

Dec, 2020

基于不确定性的离线强化学习与多样化Q集成

本文提出了一种基于不确定性的离线强化学习方法，考虑Q值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员-批评家算法，该算法在大多数D4RL基准测试中实现了最先进的性能。

Oct, 2021

基于隐式Q学习的离线强化学习

提出了一种名为Implicit Q-learning (IQL)的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询Q函数的情况下改进策略。该方法在离线强化学习标准基准D4RL上表现出了最先进的性能。

Oct, 2021

混合强化学习：利用离线和在线数据都可使强化学习更加高效

本文介绍一种混合强化学习算法Hy-Q，利用离线数据集和在线实时交互来提高算法设计的效率并最终在Montezuma's Revenge等测试数据上将混合强化学习算法的表现优于同类算法。

Oct, 2022

极端Q-Learning:无熵最大熵强化学习

本文提出了一个名为Extreme Q-Learning的在线和离线MaxEnt Q-learning算法，通过使用极值理论（EVT）来直接建模最大价值，而无需使用超出分布的操作估计Q值。该算法在D4RL基准测试中表现良好，并在在线DM控制任务上适度改进了SAC和TD3。

Jan, 2023

离线增强学习与在线策略Q函数规范化

提出了两种算法，利用行为策略的Q函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在D4RL基准测试中表现出良好的性能。

Jul, 2023

离线强化学习的预测离策略Q学习（POP-QL）的稳定化

稳定离线策略Q学习的新方法，通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误，能在标准基准测试中竞争性地表现，并在数据收集策略明显次优的任务中胜过竞争方法。

Nov, 2023

仅受罚Q学习用于离线强化学习

本文提出了一种约束性的离线强化学习方法EPQ，通过有选择地对易产生估计误差的状态施加惩罚，有效降低估计偏差和提升性能。

May, 2024

脱机增强型演员-评论者：在深度离线策略强化学习中自适应混合优化历史行为

基于强化学习的离策略算法OBAC通过对值进行比较，识别出性能表现优越的线下策略，并将其作为自适应约束条件，以保证更强的策略学习表现。实验结果表明，在样本效率和渐近性能方面，OBAC超过了其他常见的无模型强化学习和先进的有模型强化学习方法，涵盖了6个任务套件共53个任务。

May, 2024