渐进上下文动态自适应连续强化学习

Sep, 2022

渐进上下文动态自适应连续强化学习

Dynamics-Adaptive Continual Reinforcement Learning via Progressive Contextualization

Tiantian Zhang, Zichuan Lin, Yuxing Wang, Deheng Ye, Qiang Fu...

TL;DR本文提出一种基于动态自适应的连续强化学习框架 DaCoRL，采用渐进式上下文建模来对动态环境中的任务进行聚类，利用可扩展多头神经网络来逼近策略，同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。

Abstract

A key challenge of continual reinforcement learning (CRL) in dynamic environments is to promptly adapt the RL agent's behavior as the environment changes over its lifetime, while minimizing the catastrophic forgetting of the learned information. To address this challenge, in this artic

continual reinforcement learning contextualization multihead neural network bayesian inference environmental changes

发现论文，激发创造

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

离散 Markov 语境演变下的强化学习

本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Feb, 2022

超网络下的连续模型强化学习

通过使用任务条件超网络连续学习遇到的动态模型，HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习，而不需要重新训练之前的任务，同时超越了现有的连续学习替代方法

Sep, 2020

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

DisCo RL: 面向通用策略的分布条件强化学习

本文提出了一种基于目标分布的通用任务表征方法，通过该方法可以实现针对不同任务的灵活重用技能，并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高效地学习这些策略。在多种机器人操作任务上的实验表明，该方法显著优于先前的方法，尤其是需要对新目标分布进行泛化的任务。

Apr, 2021

因果协同并行强化学习

提出了一种用于数据共享和协调探索的新型算法框架，旨在在并发强化学习设置下学习更加数据高效和性能更好的策略，通过引入因果推断算法提取模型参数，并基于其相似度提出了一种新的数据共享方案，证明了在一组自回归、摆杆和倒立摆任务上具有更快学习速度，展示了在稀疏奖励环境下常规智能体之间多样化行动选择的有效性。

Jan, 2024

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Oct, 2023

通过自适应上下文感知策略在强化学习中实现动态概括

我们研究了如何将上下文信息引入行为学习以提高泛化性能，并引入了一个神经网络架构 —— 决策适配器，该架构生成适配器模块的权重，并根据上下文信息调整智能体的行为。实验证明，与以往方法相比，决策适配器在几个环境中表现出更好的泛化性能，并且相对于一些替代方法，决策适配器对于无关变量的干扰更具鲁棒性。

Oct, 2023

强化学习动态泛化中的轨迹多项选择学习

本文介绍一种新的基于模型的强化学习算法，名为 trajectory-wise multiple choice learning，该算法通过学习多头动力学模型来实现动力学泛化，具有优异的零样本泛化性能。

Oct, 2020

基于逐步任务情境化的多智能体持续协调

本文提出了一种名为 MACPro 的方法，通过采用分解的策略来实现多智能体不断协调的能力，支持多类任务进行更好地管理和学习，并且在多项多智能体基准测试中表现出近乎最优的性能。

May, 2023