Jun, 2022
前序特征
Predecessor Features
Duncan Bailey, Marcelo G. Mattar
TL;DR探究了一种名为 'Predecessor Features' 的算法,它通过维护一个近似过去积累经验和的方法,允许将时序差分误差准确地传播到比传统方法更多的前身状态中,从而大大提高了增强学习的效率和性能。
Abstract
Any reinforcement learning system must be able to identify which past events
contributed to observed outcomes, a problem known as credit assignment. A
common solution to this problem is to use an →
发现论文,激发创造
继承特征将模型无关和基于模型的强化学习元素相结合
本文分析了不同潜在状态空间的属性,发现了模型学习与模型自由强化学习之间的新联系,并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广,从而进一步实现模型学习和继承特征之间的联系。
Jan, 2019
强化学习中的后继特征迁移
我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架,用于处理奖励函数在不同任务之间变化的情况,并且可以在不同任务之间自由地交换信息,同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中,该方法成功地促进了优化的转移,明显优于其他方法.
Jun, 2016
稀疏关注回溯:通过提醒实现时间信用分配
为了学习长期依赖性,本文提出了一种新算法,在过去状态中关联与当前状态相关的记忆,通过注意力机制实现长期跳跃连接,用于逐步向过去传递信用分配,该算法相对于有反向传播实现的算法具有更好的性能。
Sep, 2018
基于人类偏好的奖励学习中基于先见性 L2 正则化
通过引入一种赋分策略(Hindsight PRIOR),将状态重要性纳入奖励学习中,可以改善策略学习速度、整体性能和奖励恢复,在元世界(20%)和 DMC(15%)的运动和操纵任务上平均恢复了更多奖励,这表明赋分策略对奖励学习有很大的益处,并且状态重要性在前向动力学预测中是决策偏好的强有力指标。
Apr, 2024
具备变分内在继承特征的快速任务推理
本文介绍了一种将马尔可夫决策过程和继承特征相结合的算法 (VISR),该算法通过学习可控特征对继承特征进行增强,从而实现对 Atari 游戏中奖励的快速学习和泛化能力,并在 14 个游戏中实现了人类水平的表现。
Jun, 2019
使用后继特征进行多任务转移的任务重新标记
本文研究了如何通过预训练 Successor Features 以提高 Deep Reinforcement Learning 的性能,并提出了一种任务重标记的方法以实现迁移学习。
May, 2022