本研究提出了一种基于过去决策优劣的后验学习方式,解决了强化学习中的信用分配问题,并通过实证分析展示其成功地解决了一系列信用分配难题。
Dec, 2019
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
Dec, 2023
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反事实分配信用的算法,使得信用可以从轨迹和策略之外进行分配。
Feb, 2022
该论文介绍了一种使用轨迹空间平滑来学习指导奖励的算法,并阐明了该算法在解决强化学习中长期时序信用分配问题上的优越性。
Oct, 2020
研究探讨了如何从常规多步强化学习的角度看待分层信用分配,并将其改进为能够提高代理性能的层次算法。
Mar, 2022
通过引入一种赋分策略(Hindsight PRIOR),将状态重要性纳入奖励学习中,可以改善策略学习速度、整体性能和奖励恢复,在元世界(20%)和 DMC(15%)的运动和操纵任务上平均恢复了更多奖励,这表明赋分策略对奖励学习有很大的益处,并且状态重要性在前向动力学预测中是决策偏好的强有力指标。
Apr, 2024
本研究应用反事实的思想来解决强化学习领域中 action 对于未来奖励的影响以及技能和运气的区分问题,并提出了一种使用未来条件价值函数作为基准的策略梯度算法,以及加入了不确定因素的验证和实验,证明了该算法有效性和低方差的特点。
Nov, 2020
本文介绍了一种新的时间信用分配算法,使用深度神经网络将时间步骤分解为每个步骤,并采用 Transformer 语言模型学习轨迹状态的重要性和依赖性,可大幅提高回路强化学习的学习效率。作者在一组具有连续运动控制任务的 MuJoCo 上进行了广泛的实验,并证明了该算法的有效性。
May, 2019
本文研究如何将 hindsight 引入到 policy gradient 方法中,对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。
Nov, 2017
本文研究 Meta-reinforcement learning 中信用分配的理论分析,提出了一种新的元学习算法,通过控制先适应和适应策略的统计距离,实现了高效和稳定的元学习。该方法导致出色的先适应策略行为,并在样本效率,墙钟时间和渐近性能方面始终优于以前的 Meta-RL 算法。
Oct, 2018