强化学习中的自助法期望分位数估计

Jun, 2024

强化学习中的自助法期望分位数估计

Bootstrapping Expectiles in Reinforcement Learning

Pierre Clavier, Emmanuel Rachelson, Erwan Le Pennec, Matthieu Geist

TL;DR基于预期化引入一种形式的悲观主义，提出了一种新的强化学习方法 ExpectRL，并在处理过度估计问题和鲁棒性强化学习方面取得了比传统方法更好的结果。

Abstract

Many classic reinforcement learning (RL) algorithms rely on a Bellman operator, which involves an expectation over the next states, leading to the concept of bootstrapping. To introduce a form of pessimism, we pr

reinforcement learning bellman operator expectile pessimism robust rl

发现论文，激发创造

学习悲观主义以实现鲁棒和高效的离策略强化学习

本文提出一种新的学习策略 —— 广义悲观学习（GPL），其利用可学习的罚值对目标回报进行悲观估计，在双 TD-learning 方法下训练策略评估模型，有效解决了时序差分学习过程中的过度估计偏差和悲观偏差问题，在传统的强化学习算法中取得了最先进的水平。

Oct, 2021

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种 Q 函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL 具有更好的性能表现。

Feb, 2022

富有信念的悲观 Q 学习用于对抗敌对状态扰动

我们提出了一种新的强化学习 (RL) 算法，通过得到一种悲观策略来保护代理对真实状态的不确定性，并结合置信状态推理和基于扩散的状态净化来降低不确定性，实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。

Mar, 2024

逆强化学习中悲观主义的优点

通过使用离线 RL 算法作为 IRL 过程的一部分，我们能够更有效地找到与专家表现相匹配的策略。

Feb, 2024

乐观陷阱：通过随机化风险准则的分布式强化学习

通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。

Oct, 2023

离线强化学习的 Bellman 一致悲观算法

本文介绍了一种 Bellman-consistent 的悲观算法，在深度学习的数据集中使用较为普遍，通过对探索性场景的标准 Bellman 闭合性理论保证了算法的鲁棒性，并且在样本复杂度上比其他算法有显著提高。

Jun, 2021

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020

深度强化学习中的战术乐观主义和悲观主义

该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。启发于这一点，研究人员引入了一种新的深度演员 - 评论员框架，Tactical Optimistic and Pessimistic (TOP) 评估，它在线切换乐观和悲观的价值学习，并在解决像素环境的连续控制任务中创造了新的最优状态。

Feb, 2021

离线强化学习的状态感知邻近悲观算法

本文提出了一种基于状态感知的近端悲观算法（SA-PP），通过利用学习策略与离线数据集之间的折扣静态状态分布比率，在状态级别上调节行为正则化的程度，以实现更合适的悲观学习，为此还提出了一种名为状态感知保守 Q-Learning（SA-CQL）的新算法，实验结果表明在标准离线学习基准测试中 SA-CQL 取得了最高平均收益。

Nov, 2022

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023