该研究旨在解决强化学习中离线策略评估问题,通过同时评估策略类别中的所有策略,实现一致收敛,并获得了多种全局 / 局部策略类别的近乎最优误差界限。
Jul, 2020
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
Nov, 2019
以离线数据为基础,离策略为核心框架,使用逆概率估计和其扩展方法提出 Delta-OPE 方法,并引入优化效率的方差最优加性控制变量,实验结果表明这些方法显著提高了评估和学习的性能。
May, 2024
本文介绍了一种针对强化学习中离线学习的校正方法(COP-TD),并通过引入折扣因子解决了非线性函数近似中的问题,进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚,此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。
Jan, 2019
提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
Apr, 2023
本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术,能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能
Dec, 2019
本文介绍了两种混合 TD 策略评估算法,并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。
Feb, 2016
本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法(包括 GTD 和 TDC)的统一视角,并提出了一种基于后掠技术的新的收敛算法,最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。
Feb, 2023
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能。
Jun, 2023
本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择,该方法结合了在线交互和记录数据,利用基于贝叶斯优化和策略相似性的内核函数,通过多个基准测试,包括实际机器人应用,证明该方法改进了最新的离线策略评估估计和纯在线策略评估,解决了缺乏在线交互数据的策略选择问题。
Jun, 2021