通过引导误差减少稳定离轨策略 Q 学习

Jun, 2019

通过引导误差减少稳定离轨策略 Q 学习

Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction

Aviral Kumar, Justin Fu, George Tucker, Sergey Levine

TL;DR该研究针对离线策略评估的弱点，探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error，提出了一种名为 BEAR 的实用算法，在不同的离线策略分布上都表现出较强的鲁棒性。

Abstract

off-policy reinforcement learning aims to leverage experience collected from prior policies for sample-efficient learning. However, in practice, commonly used →

off-policy reinforcement learning bootstrapping error actor-critic bear

发现论文，激发创造

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种 Q 函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL 具有更好的性能表现。

Feb, 2022

离线策略评估中的统计自举法用于不确定性估计

本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力，并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。

Jul, 2020

基于启发式策略评估的自举式 Q 评估优化

本文探讨了自举法在强化学习中的应用和如何提高自举法的计算效率，使用 FQE 方法进行策略评估，并用数值实验评估自举法在强化学习中的潜力。

Feb, 2021

无探索非策略深度强化学习

本文提出了一种新的批量约束强化学习算法，该算法可以从任意固定批量数据中有效学习，为解决强化学习中的一些关键问题提供可能性。

Dec, 2018

抓住意外收获：利用往期成功价值进行非同策略演员 - 评论家算法

提出了混合利用和探索算法（BEE）来解决强化学习后期出现的低估 Q 值问题，具有较高的样本效率和实用性。

Jun, 2023

离线强化学习的预测离策略 Q 学习（POP-QL）的稳定化

稳定离线策略 Q 学习的新方法，通过重新加权离线样本和限制策略以防止发散和减少价值逼近错误，能在标准基准测试中竞争性地表现，并在数据收集策略明显次优的任务中胜过竞争方法。

Nov, 2023

通过引导机缘式课程的自助强化学习

论文提出了一种新颖的灵活的对抗课程学习框架 Bootstrapped Opportunistic Adversarial Curriculum Learning (BCL)，通过对先前阶段的多次运行的最高质量解决方案进行保守自举，并机遇地跳过课程，实现了学习策略对对抗扰动的鲁棒性。实验表明，在 Pong 游戏中，该框架可使所学策略对最大 255 倍的扰动具有稳健性；相比之下，现有最佳方法只能承受最大 5 倍的对抗噪声。

Jun, 2022

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

离线增强学习与在线策略 Q 函数规范化

提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。

Jul, 2023

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023