我们介绍了对信用分配和政策评估挑战的新视角,并引入了双向值函数的概念,它可以同时考虑未来期望回报和过去累计回报,通过实验证明这种价值函数在增强政策评估过程中的有效性。
Dec, 2023
探究了一种名为 'Predecessor Features' 的算法,它通过维护一个近似过去积累经验和的方法,允许将时序差分误差准确地传播到比传统方法更多的前身状态中,从而大大提高了增强学习的效率和性能。
Jun, 2022
本文研究了资格追踪在 Atari 游戏中和循环神经网络相结合的应用,展示了循环网络和资格追踪在 Atari 游戏中的优势,并强调了训练中所使用的优化的重要性。
Apr, 2017
使用海马体中的 theta 序列作为解决策略评估的方丈,可以在没有长期记忆的情况下进行授分,从而压缩行为并扩展短暂的神经记忆痕迹。
May, 2023
该论文提出了一种基于模型的后继表示法 (SR) 的源迹 (source traces) 学习算法,证明了该算法的收敛性,同时开发了一种新算法来学习源图 (source map) 或 SR 矩阵,并探索了各种处理源或 SR 模型的方法,结果表明源迹能有效地与其他基于模型的方法相结合。
Feb, 2019
采用资格追踪技术对现有算法进行了系统的改进,并提出了新的扩展算法,比较实验结果表明标准的 on-policy 和 off-policy LSTD(λ)/LSPE(λ)算法以及如果特征空间维度太大不能使用最小二乘法则选择 TD(λ)算法最佳。
Apr, 2013
通过回溯模型和回溯的方式,可以在强化学习中发现更多高奖励状态,从而提高状态采样的效率。
Apr, 2018
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题,解决了在顺序决策制定问题中缺乏评估反馈的挑战。
Jul, 2023
本文旨在解决强化学习中最基本的关于时间信用分配问题,通过使用基于状态时的换算系数或基于更一般的由状态,所需格外步骤和奖励时间之间的函数关系的静态 / 动态配重方法,在学习 RL 策略的过程中使用元梯度方法学习这些分配函数从而提高性能。
Feb, 2021