离线强化学习的乐观视角

ICMLJul, 2019

An Optimistic Perspective on Offline Reinforcement Learning

Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi

TL;DR该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Abstract

off-policy reinforcement learning (RL) using a fixed offline dataset of logged interactions is an important consideration in real world applications. This paper studies offline rl using the →

off-policy reinforcement learning dqn replay dataset random ensemble mixture offline rl robust rl algorithms

发现论文，激发创造

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

离线不平衡数据集的强化学习

通过在分布式的约束条件如 onservative Q-learning 基础上引入信息检索过程，有效地减轻了失衡数据集所带来的挑战，我们提出了一种新颖的离线强化学习方法，并在不同程度失衡的数据集上的几个任务中评估了其优劣。

Jul, 2023

平衡重现和悲观 Q 集合的离线到在线强化学习

本文提出了一种平衡重放机制和多 Q 函数的方法来解决深度离线强化学习中的状态 - 动作分布移位问题，以提高机器人代理在不同运动和操作任务中的样本效率和最终性能。

Jul, 2021

基于集成的离线到在线强化学习：从悲观学习到乐观探索

提出了一种名为 “Ensemble-based Offline-to-Online（E2O）RL” 的新框架，通过增加 Q 网络的数量，能够无损地桥接离线预训练和在线微调，同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制，加快了在线性能增强，显著优于现有的离线到在线 RL 方法，能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性，学习效率和最终性能。

Jun, 2023

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化

本文提出提高离线强化学习性能的方法：使用 ResNets、基于交叉熵的分布备份、特征标准化，取得了良好的性能和容量扩展性。同时，作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示，并实现快速传输到新游戏和在线学习的目标。

Nov, 2022

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023