基于集成的离线到在线强化学习：从悲观学习到乐观探索

Jun, 2023

基于集成的离线到在线强化学习：从悲观学习到乐观探索

Ensemble-based Offline-to-Online Reinforcement Learning: From Pessimistic Learning to Optimistic Exploration

Kai Zhao, Yi Ma, Jinyi Liu, Yan Zheng, Zhaopeng Meng

TL;DR提出了一种名为 “Ensemble-based Offline-to-Online（E2O）RL” 的新框架，通过增加 Q 网络的数量，能够无损地桥接离线预训练和在线微调，同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制，加快了在线性能增强，显著优于现有的离线到在线 RL 方法，能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性，学习效率和最终性能。

Abstract

offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, →

offline reinforcement learning offline-to-online rl ensemble-based offline-to-online rl q-networks ensemble-based exploration mechanisms

发现论文，激发创造

基于不确定性和平滑性的稳健离线到在线强化学习

提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法，通过不确定性和平滑性来增强离线策略，并在在线适应中减少性能下降，实验结果表明其在促进稳定的离线到在线学习方面具有优越性。

Sep, 2023

线下到线上强化学习的贝叶斯设计原则

离线强化学习（RL）在探索可能成本高昂或不安全的真实世界应用中至关重要。然而，离线学习的策略通常是次优的，需要进一步进行在线微调。本文解决了离线到在线微调的基本困境：如果智能体保持悲观态度，可能无法学到更好的策略，而如果直接变得乐观，性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略，而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降，同时保证找到最优策略。基于我们的理论发现，我们提出了一种优于现有方法的新算法，在各种基准测试中展示了我们方法的有效性。总体而言，所提出的方法为离线到在线 RL 提供了一种新的视角，有潜力使离线数据的学习更加有效。

May, 2024

离线到线上强化学习中 Q 值估计的视角

离线到在线强化学习（O2O RL）旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究 O2O RL 中仍存在的挑战，并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的 Q 值估计。为解决这个问题，我们采用了两种技术：扰动值更新和增加 Q 值更新的频率。我们的实验证明，提出的方法 SO2 显著缓解了 Q 值估计问题，并相对于最先进的方法改进了性能高达 83.1%。

Dec, 2023

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

平衡重现和悲观 Q 集合的离线到在线强化学习

本文提出了一种平衡重放机制和多 Q 函数的方法来解决深度离线强化学习中的状态 - 动作分布移位问题，以提高机器人代理在不同运动和操作任务中的样本效率和最终性能。

Jul, 2021

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

在在线 RL 或微调中，使用乐观探索策略来探索新的状态和行为是可取的，我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架，通过在在线微调结束时进行离线训练来恢复更好的策略。

Oct, 2023

离线强化学习作为反探索策略

本研究提出了一种新的离线强化学习代理，将基于奖励的勘探法的探索奖励从奖励中减去，以使策略保持在数据集的支持范围内，并连接该方法到对学习策略向数据集的普遍约束的正则化，通过基于变分自动编码器的预测误差的奖励进行实例化，证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。

Jun, 2021

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021