本文提出一种新的学习策略 —— 广义悲观学习(GPL),其利用可学习的罚值对目标回报进行悲观估计,在双 TD-learning 方法下训练策略评估模型,有效解决了时序差分学习过程中的过度估计偏差和悲观偏差问题,在传统的强化学习算法中取得了最先进的水平。
Oct, 2021
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种 Q 函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL 具有更好的性能表现。
Feb, 2022
我们提出了一种新的强化学习 (RL) 算法,通过得到一种悲观策略来保护代理对真实状态的不确定性,并结合置信状态推理和基于扩散的状态净化来降低不确定性,实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。
Mar, 2024
通过使用离线 RL 算法作为 IRL 过程的一部分,我们能够更有效地找到与专家表现相匹配的策略。
Feb, 2024
通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法,证明了该方法的收敛性和最优性,并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。
Oct, 2023
本文介绍了一种 Bellman-consistent 的悲观算法,在深度学习的数据集中使用较为普遍,通过对探索性场景的标准 Bellman 闭合性理论保证了算法的鲁棒性,并且在样本复杂度上比其他算法有显著提高。
Jun, 2021
本文提出了一种悲观的价值迭代算法(PEVI),它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题,并在泛化情况下对其次优性建立了数据相关的上限。
Dec, 2020
该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。 启发于这一点,研究人员引入了一种新的深度演员 - 评论员框架,Tactical Optimistic and Pessimistic (TOP) 评估,它在线切换乐观和悲观的价值学习,并在解决像素环境的连续控制任务中创造了新的最优状态。
Feb, 2021
本文提出了一种基于状态感知的近端悲观算法(SA-PP),通过利用学习策略与离线数据集之间的折扣静态状态分布比率,在状态级别上调节行为正则化的程度,以实现更合适的悲观学习,为此还提出了一种名为状态感知保守 Q-Learning(SA-CQL)的新算法,实验结果表明在标准离线学习基准测试中 SA-CQL 取得了最高平均收益。
Nov, 2022
提出了一种基于期望风险的探索算法,通过训练神经网络和优化策略使智能体具有探索未知状态的能力,在深度强化学习中表现出良好的性能。
Feb, 2023