学习悲观主义以实现鲁棒和高效的离策略强化学习

AAAIOct, 2021

学习悲观主义以实现鲁棒和高效的离策略强化学习

Learning Pessimism for Robust and Efficient Off-Policy Reinforcement Learning

Edoardo Cetin, Oya Celiktutan

TL;DR本文提出一种新的学习策略 —— 广义悲观学习（GPL），其利用可学习的罚值对目标回报进行悲观估计，在双 TD-learning 方法下训练策略评估模型，有效解决了时序差分学习过程中的过度估计偏差和悲观偏差问题，在传统的强化学习算法中取得了最先进的水平。

Abstract

off-policy deep reinforcement learning algorithms commonly compensate for overestimation bias during temporal-difference learning by utilizing pe

off-policy deep reinforcement learning pessimistic estimates generalized pessimism learning dual td-learning overestimation bias

发现论文，激发创造

深度强化学习中的战术乐观主义和悲观主义

该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。启发于这一点，研究人员引入了一种新的深度演员 - 评论员框架，Tactical Optimistic and Pessimistic (TOP) 评估，它在线切换乐观和悲观的价值学习，并在解决像素环境的连续控制任务中创造了新的最优状态。

Feb, 2021

双重悲观主义在分布式鲁棒离线强化学习中证明有效：通用算法与鲁棒部分覆盖

本研究提出了一个新的算法框架用于分布鲁棒离线强化学习，该算法结合了一种灵活的模型估计子程序和双倍悲观的策略优化步骤，其关键在于通过特定的模型估计子程序，提高离线数据集对鲁棒策略的覆盖度，从而有效克服分布偏移问题，并在多种函数逼近近似方法中得到了良好地应用。

May, 2023

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

离线强化学习的状态感知邻近悲观算法

本文提出了一种基于状态感知的近端悲观算法（SA-PP），通过利用学习策略与离线数据集之间的折扣静态状态分布比率，在状态级别上调节行为正则化的程度，以实现更合适的悲观学习，为此还提出了一种名为状态感知保守 Q-Learning（SA-CQL）的新算法，实验结果表明在标准离线学习基准测试中 SA-CQL 取得了最高平均收益。

Nov, 2022

强化学习中的自助法期望分位数估计

基于预期化引入一种形式的悲观主义，提出了一种新的强化学习方法 ExpectRL，并在处理过度估计问题和鲁棒性强化学习方面取得了比传统方法更好的结果。

Jun, 2024

逆强化学习中悲观主义的优点

通过使用离线 RL 算法作为 IRL 过程的一部分，我们能够更有效地找到与专家表现相匹配的策略。

Feb, 2024

基于模型的离线强化学习中的悲观情况调节动态信念

通过维护动态神经网络的信念分布，以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计，可以最大限度地利用静态数据集，实现基于模型的离线强化学习。

Oct, 2022

离线强化学习的 Bellman 一致悲观算法

本文介绍了一种 Bellman-consistent 的悲观算法，在深度学习的数据集中使用较为普遍，通过对探索性场景的标准 Bellman 闭合性理论保证了算法的鲁棒性，并且在样本复杂度上比其他算法有显著提高。

Jun, 2021

分层强化学习：面对不确定性的悲观和恒定遗憾

提出了一个学习框架，该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组，以分别处理他们的不同探索风险容忍度，并研究了将 Pessimistic Value Iteration 作为利用算法的应用。

May, 2022

离线策略学习中对规范化重要性采样的悲观性统一 PAC-Bayesian 研究

通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重，我们提出了一个可验证的 PAC-Bayesian 泛化界限，该界限广泛适用于常见的重要性权重规范化方法，从而在单个框架内进行比较。我们的实证结果挑战了常见的认知，证明了标准的 IW 规范化技术的有效性。

Jun, 2024