预期资格追踪
本研究应用反事实的思想来解决强化学习领域中action对于未来奖励的影响以及技能和运气的区分问题,并提出了一种使用未来条件价值函数作为基准的策略梯度算法,以及加入了不确定因素的验证和实验,证明了该算法有效性和低方差的特点。
Nov, 2020
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反事实分配信用的算法,使得信用可以从轨迹和策略之外进行分配。
Feb, 2022
探究了一种名为 'Predecessor Features' 的算法,它通过维护一个近似过去积累经验和的方法,允许将时序差分误差准确地传播到比传统方法更多的前身状态中,从而大大提高了增强学习的效率和性能。
Jun, 2022
本文介绍了一种基于Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即“如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与HCA和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。
Jun, 2023
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
Dec, 2023
我们介绍了对信用分配和政策评估挑战的新视角,并引入了双向值函数的概念,它可以同时考虑未来期望回报和过去累计回报,通过实验证明这种价值函数在增强政策评估过程中的有效性。
Dec, 2023
时间差分学习中的时间分配问题是具有挑战性的,本文提出了一种名为Chunked-TD的算法,它使用来自模型的预测概率来计算lambda回报目标,相对于其他基于模型的解决方案,Chunked-TD更不容易受到模型的不准确性影响,该算法可以在线实施,解决了某些问题比传统的TD(lambda)算法更快。
May, 2024