离线强化学习中 Q 值离散度的理解、预测和改善

Oct, 2023

离线强化学习中 Q 值离散度的理解、预测和改善

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL

Yang Yue, Rui Lu, Bingyi Kang, Shiji Song, Gao Huang

TL;DR在离线增强学习中，离线 Q 值估计的发散问题一直是一个突出的问题。本研究通过对机制的全面理解和对模型架构的改进，提出了解决发散问题的新途径，其中包括基于离线 RL 的自激励模式和通过 LayerNorm 架构提升性能。

Abstract

The divergence of the q-value estimation has been a prominent issue in offline rl, where the agent has no access to real dynamics. Traditional beliefs attribute this instability to querying out-of-distribution ac

offline rl q-value estimation self-excitation self-excite eigenvalue measure (seem)layernorm

发现论文，激发创造

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

强化学习中的稳定边缘现象研究

通过研究强化学习中的稳定性边界现象，发现优化动力学可以在不同的问题领域中发生转移，但深度强化学习的优化动力学在某些方面与监督学习不同。

Jul, 2023

探索深度强化学习中的差异化特征

基于线性近似 Q 值更新的分析方法，提出一种稳定的深度 Q 学习算法，不需要传统的技巧（如目标网络、自适应梯度优化器或使用多个 Q 函数）就能实现连续控制，并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。

Mar, 2019

离线到线上强化学习中 Q 值估计的视角

离线到在线强化学习（O2O RL）旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究 O2O RL 中仍存在的挑战，并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的 Q 值估计。为解决这个问题，我们采用了两种技术：扰动值更新和增加 Q 值更新的频率。我们的实验证明，提出的方法 SO2 显著缓解了 Q 值估计问题，并相对于最先进的方法改进了性能高达 83.1%。

Dec, 2023

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024

UDQL: 在离线强化学习中构建均方误差损失与最优值函数之间的桥梁

本文通过对均方误差进行理论分析，提供了过估计误差的理论上界，并提出了一种新的贝尔曼低估算子来对抗过估计现象，证明了其压缩特征。最后，基于低估算子和扩散策略模型提出了离线强化学习算法，实验证明我们的方法在 D4RL 任务上优于现有算法，验证了我们的理论分析和低估方法对离线强化学习任务的有效性。

Jun, 2024

Q - 函数之差的正交估计

离线强化学习是许多具有可用观测数据但由于安全、成本和其他方面的考虑而无法在线部署新策略的设置中的重要问题。本文提出了 R-learner 的动态推广，用于估计和优化 Q 函数之间的差异，方法可以利用黑盒辅助估计器和行为策略来估计更结构化的 Q 函数对比。

Jun, 2024

离线强化学习中的选择性不确定性传播

研究了有限时间内的离线强化学习问题，提出了一种基于动作影响估计的算法，可在统计上简单实例上胜过传统的悲观方法。

Feb, 2023

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

通过超参数化来解决 neural TD 的优化非线性问题，证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解，并进一步连接到策略梯度算法的全局收敛。

May, 2019

离线增强学习与在线策略 Q 函数规范化

提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。

Jul, 2023