基于后继特征的元强化学习

Jul, 2022

Meta Reinforcement Learning with Successor Feature Based Context

Xu Han, Feng Wu

TL;DR为了实现多任务学习和数据效率，提出了一种基于环境变量和后继特征框架的元强化学习方法，可在减少环境交互的情况下实现具有竞争力的性能和数据效率。

Abstract

Most reinforcement learning (RL) methods only focus on learning a single task from scratch and are not able to use prior knowledge to learn other tasks more effectively. context-based meta rl techniques are recen

reinforcement learning context-based meta rl successor feature framework multi-task learning data efficiency

发现论文，激发创造

通过概率上下文变量实现高效的离线元强化学习

本文提出了一种离线元强化学习算法，通过在线概率过滤隐含的任务变量来推断如何从少量经验中解决新任务，实现了结构化和有效的探索。该方法在几个元 - 强化学习基准测试中，比先前算法在样本效率和渐近性能方面提高了 20-100 倍。

Mar, 2019

基于对比学习的元强化学习有效上下文方法

提出一种名为 CCM 的元强化学习框架，通过对比不同任务来训练一个精简有效的上下文编码器，并训练一个单独的探索策略和理论推导一个新的信息增益目标，从而在几步内收集信息丰富的轨迹。实验证明，CCM 通过分别解决之前提到的问题，优于现有算法。

Sep, 2020

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

基于上下文表示的多任务强化学习

提出一种多任务学习的方法，通过元数据构建可组合且可解释的表示，从而改进多任务学习性能，并在一个包含 50 个不同机器人操作任务的具有挑战性的多任务基准 Meta-World 上实现了最先进的结果。

Feb, 2021

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

基于后继状态特征的深度强化学习在相似环境导航中的应用

研究机器人导航，提出了一种基于强化学习的算法，通过前期掌握的导航知识，能快速适应不同环境下的导航任务，并与经典基于规划的导航方法进行对比。

Dec, 2016

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

高斯任务上下文与技能的元强化学习解耦

离线元强化学习方法（即通过先前经验适应未见的目标任务）在机器人控制任务中至关重要。本文提出了一种名为分离式元强化学习（DCMRL）的框架，通过对任务上下文和技能的学习和探索进行量化和离散化，从而获取可推广的先前经验并在元测试阶段实现对未见目标任务的有效适应。实验证明，DCMRL 比先前的元强化学习方法具有更具推广性的先前经验，并在导航和机器人操纵连续控制任务中更加有效。

Dec, 2023