面向转移强化学习的通用继承表示

Apr, 2018

面向转移强化学习的通用继承表示

Universal Successor Representations for Transfer Reinforcement Learning

Chen Ma, Junfeng Wen, Yoshua Bengio

TL;DR研究转移强化学习中普适继承表示的使用，证明其在任务泛化和知识传输方面具有效用，并通过 USRA 的初始化使智能体更快地实现目标。

Abstract

The objective of transfer reinforcement learning is to generalize from a set of previous tasks to unseen new tasks. In this work, we focus on the transfer scenario where the dynamics among tasks are the same, but their goals differ. Although general →

transfer reinforcement learning universal successor representations value function knowledge transfer task generalization

发现论文，激发创造

转移强化学习的通用继承特征

本文提出了通用后继特征用于环境建模和知识迁移，实验结果表明，该方法可以加速多任务学习且在新任务中有效地迁移知识。

Jan, 2020

通用后继特征逼近器

我们提出了一种新型的普适继承特征逼近器，利用其可进行上下文下多种策略迁移与推论，提高了强化学习算法的鲁棒性和实用性，并在一款首人称三维环境导航应用上展示了其广泛适用性。

Dec, 2018

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

数据增强下的统一状态表示学习

该论文提出了一种使用数据增强进行统一状态表示学习的强化学习通用化方法，可以提高智能体的泛化能力和领域自适应性能在 DeepMind 控制泛化基准测试中的表现，达到了更高的样本效率和 14.3％的领域适应性比最佳基准结果。

Sep, 2022

深度继承强化学习

该论文介绍了 DSR，即在一个端到端的深度强化学习框架中，将 SR 进行了推广，通过奖励预测和继任者映射的分解提高了对远程奖励变化的灵敏度，并能够从随机策略下训练的继任者地图中提取瓶颈状态（子目标）。然后在两个不同的环境中展示了该方法的有效性，包括简单的网格世界领域和 Doom 游戏引擎。

Jun, 2016

通过潜在的统一状态表示在强化学习中进行领域自适应

通过使用两个阶段的深度强化学习代理，其中第一阶段学习统一的状态表示，第二阶段在一个源域中基于此状态表示进行强化学习训练，以实现异构领域上的零样本策略转移，该方法已经在 CARLA 自动驾驶模拟器中得到验证。

Feb, 2021

使用继承表示实现基于计数的探索

介绍了基于继承代表（successor representation）的强化学习的简单方法，利用其转移概念的范数作为奖励来激励探索，以及用隐式计数实现高效完备探索，并在 Atari 2600 游戏中实现了最先进的性能。

Jul, 2018

利用后继表示加速建构性预测框架的学习

本文研究使用后继表示法（SR）加速基于通用价值函数（GVF）的积极知识系统的学习，在网格世界中分析了该方法，并在机器人物理数据上证明了它的潜力。

Mar, 2018

连续控制任务中带不确定性集合正则化的鲁棒强化学习

本文提出了一种基于不确定参数空间的不确定性集合正则化器 USR，以提高强化学习在真实世界机器人领域中的鲁棒性和推广性，并在实际测试环境下对其进行评估。

Jul, 2022

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019