基于启发式策略评估的自举式 Q 评估优化
本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力,并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。
Jul, 2020
该研究针对离线策略评估的弱点,探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error,提出了一种名为 BEAR 的实用算法,在不同的离线策略分布上都表现出较强的鲁棒性。
Jun, 2019
本文提出一种基于原始 - 对偶优化的算法,用于构建非渐进置信区间,该算法利用了 Feng 等人(2019 年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。
Mar, 2021
该研究通过引入一个 OPE-tailored 的状态 - 动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率,证明了这种度量可以限制导致的 OPE 估计误差,并通过实证研究证明这种学习表示方法相对于其他 OPE-based 表示学习方法在具有挑战性的 OPE 任务中提高了 FQE 的数据效率并降低了 OPE 误差,该方法还可以在不同分布变化时显著减轻 FQE 的发散问题。
Oct, 2023
本文从函数逼近和 $q$ 函数的角度,通过最新的极小极大方法对离线策略评估 (OPE) 在强化学习中进行了理论刻画,并基于此结果分析了 OPE 的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。
Feb, 2021
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
Aug, 2020
本文研究利用函数逼近的批量数据强化学习的统计理论,针对离线策略评估问题提出了基于回归的适应 Q 迭代方法,证明该方法是信息理论上的最优方法,错误估计接近最小,进而提供容易计算的置信区间,该方法在乐观规划和安全策略改进中可能有用
Feb, 2020
本文提出了一种混合人工智能系统的方法,该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点,并制定一组选择规则,使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中,可以用于识别评估过程中的限制并使评估更加稳健。
Feb, 2020
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种 Q 函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL 具有更好的性能表现。
Feb, 2022