在具有上下文情境和目标函数的决策环境中,我们使用双重稳健技术评估新策略,并证明这种方法使价值估计具有较低的方差,且能达到更好的策略,为该领域提供一种有效的方法。
Mar, 2011
论文研究了在环境中收益只有部分观测可用的情况下如何进行顺序决策,提出了双重稳健估计技术用于政策评估和优化,证明了该方法在具有良好收益模型或过去政策模型的情况下都能产生准确的价值估计。
Mar, 2015
本研究提出了一种基于过去决策优劣的后验学习方式,解决了强化学习中的信用分配问题,并通过实证分析展示其成功地解决了一系列信用分配难题。
Dec, 2019
介绍了一种名为期望资格追踪( expected eligibility traces )的新方法,相比之前的资格追踪方法,该方法可以更有效地解决强化学习中信用分配问题。
Jul, 2020
本研究应用反事实的思想来解决强化学习领域中action对于未来奖励的影响以及技能和运气的区分问题,并提出了一种使用未来条件价值函数作为基准的策略梯度算法,以及加入了不确定因素的验证和实验,证明了该算法有效性和低方差的特点。
Nov, 2020
本研究提出一种基于状态关联学习的方法来优化强化学习中时间差分方法的不足,并用其在Atari游戏的任务中获得了比现有技术快25倍的结果。
Feb, 2021
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反事实分配信用的算法,使得信用可以从轨迹和策略之外进行分配。
Feb, 2022
本文介绍了一种基于Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即“如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与HCA和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。
Jun, 2023
我们研究部分可观察环境中的离策略评估(OPE),旨在开发其保证不依赖于时间跨度的估算器。我们发现了与部分可观察马尔可夫决策过程(POMDP)结构相关的新覆盖假设和具有互补性质的新算法。
Feb, 2024
在金融机构中,评分模型的建立和评估基于已接受申请人的数据,而他们的还款行为已知。然而,这样做会产生抽样偏差,而论文中提出的两种方法,即拒绝推理和贝叶斯框架,有效地解决了这个问题,并证实了它们在预测性能和盈利能力方面的优越性。
Jul, 2024