基于不确定性的离线强化学习与多样化 Q 集成

Oct, 2021

基于不确定性的离线强化学习与多样化 Q 集成

Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble

Gaon An, Seungyong Moon, Jang-Hyun Kim, Hyun Oh Song

TL;DR本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Abstract

offline reinforcement learning (offline RL), which aims to find an optimal policy from a previously collected static dataset, bears algorithmic difficulties due to function approximation errors from out-of-distribution (OOD) data points. To this end, offline RL algorithms adopt either

offline reinforcement learning uncertainty-based deep neural networks ensemble-diversified actor-critic state-of-the-art

发现论文，激发创造

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024

多样化的随机化价值函数：离线强化学习的可证明悲观方法

离线强化学习面临分布偏移和不可靠价值估计，本文提出了一种新策略，采用多样化的随机化值函数估计 $Q$ 值的后验分布，并应用适度的价值惩罚方法来确定鲁棒的不确定性量化和 $Q$ 值的较低置信区间。通过提高随机化值函数的多样性并引入一种多样性正则化方法，可以减少所需的网络数量，从而实现可靠的价值估计和有效的策略学习。理论分析表明，在线性 MDP 假设下，我们的方法能够恢复出经过证明的高效的较低置信区间惩罚。大量的实证结果也证明，我们提出的方法在性能和参数效率方面明显优于基准方法。

Apr, 2024

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种 Q 函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL 具有更好的性能表现。

Feb, 2022

基于集成的离线到在线强化学习：从悲观学习到乐观探索

提出了一种名为 “Ensemble-based Offline-to-Online（E2O）RL” 的新框架，通过增加 Q 网络的数量，能够无损地桥接离线预训练和在线微调，同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制，加快了在线性能增强，显著优于现有的离线到在线 RL 方法，能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性，学习效率和最终性能。

Jun, 2023

使用离线数据的强化学习算法

该论文提出一种名为 RFQI 的稳健强化学习算法，使用离线数据集来优化策略，在标准条件下该算法能够学习到近乎最优的稳健策略，并且在标准基准测试问题上展现出卓越的性能表现。

Aug, 2022

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

基于不确定性和平滑性的稳健离线到在线强化学习

提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法，通过不确定性和平滑性来增强离线策略，并在在线适应中减少性能下降，实验结果表明其在促进稳定的离线到在线学习方面具有优越性。

Sep, 2023

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023