选择性信用分配
本研究应用反事实的思想来解决强化学习领域中action对于未来奖励的影响以及技能和运气的区分问题,并提出了一种使用未来条件价值函数作为基准的策略梯度算法,以及加入了不确定因素的验证和实验,证明了该算法有效性和低方差的特点。
Nov, 2020
本文旨在解决强化学习中最基本的关于时间信用分配问题,通过使用基于状态时的换算系数或基于更一般的由状态,所需格外步骤和奖励时间之间的函数关系的静态/动态配重方法,在学习RL策略的过程中使用元梯度方法学习这些分配函数从而提高性能。
Feb, 2021
本文提出了一种新的梯度估计算法HNCA,用于离散随机单元网络的信用分配,该方法通过基于其输出影响其子节点的程度来分配信用,证明HNCA产生的无偏梯度估计与REINFORCE估计器相比具有更小的方差,同时计算成本与反向传播相似。
Oct, 2021
本文介绍了一种基于Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即“如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与HCA和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。
Jun, 2023
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
Dec, 2023
时间差分学习中的时间分配问题是具有挑战性的,本文提出了一种名为Chunked-TD的算法,它使用来自模型的预测概率来计算lambda回报目标,相对于其他基于模型的解决方案,Chunked-TD更不容易受到模型的不准确性影响,该算法可以在线实施,解决了某些问题比传统的TD(lambda)算法更快。
May, 2024