Hi-Core：层次化知识迁移用于连续性强化学习

Jan, 2024

Hi-Core：层次化知识迁移用于连续性强化学习

Hi-Core: Hierarchical Knowledge Transfer for Continual Reinforcement Learning

Chaofan Pan, Xin Yang, Hao Wang, Wei Wei, Tianrui Li

TL;DRHi-Core 是一个新颖框架，用于在连续强化学习中增强高层次的知识传递，并通过大型语言模型（LLM）进行目标设置和低层次策略学习，并通过知识库存储策略实现层次化知识传递，实验证明其在处理多样化 CRL 任务上的有效性优于常见的基线模型。

Abstract

continual reinforcement learning (CRL) empowers RL agents with the ability to learn from a sequence of tasks, preserving previous knowledge and leveraging it to facilitate future learning. However, existing methods often focus on transferring low-level knowledge across similar tasks, w

continual reinforcement learning hierarchical knowledge transfer high-level policy formulation low-level policy learning knowledge base

发现论文，激发创造

合作式深度强化学习

本文提出了一种协作深度强化学习框架，其中包括深度知识蒸馏方法、异构学习任务深度对齐网络、有效的协同 A3C 算法等，用于在不同学习任务中执行自适应知识转移

Feb, 2017

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

基于因果推断的强化学习层次化结构发现

本论文提出了 CDHRL 框架，通过因果驱动探索而非随机驱动探索来构建高质量的分层结构，以提高分层强化学习的探索效率。实验表明，在 2D-Minecraft 和 Eden 两种复杂环境中，CDHRL 显著提高了探索效率。

Oct, 2022

超网络下的连续模型强化学习

通过使用任务条件超网络连续学习遇到的动态模型，HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习，而不需要重新训练之前的任务，同时超越了现有的连续学习替代方法

Sep, 2020

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

面向语言条件任务的概念强化学习

本研究提出了一种概念强化学习 (CRL) 框架，通过多级注意力编码器和两个互信息约束来提高语言条件策略的训练效率和泛化能力，该框架提取了一种类似于人类认知的紧凑且不变的联合表示。

Mar, 2023

CRISP: 层次强化学习中课程引导的基本原语子目标预测

本文提出了一种新的分层算法，通过生成可实现的子目标的课程来训练逐层递进的策略，通过在少量专家演示中使用基础解析方法进行数据重标注，得到了可以用于多数机器人控制任务的适用的逐层递进的强化学习算法，实验结果表明，课程学习可以显著提高分层强化学习的效率。

Apr, 2023

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

KEHRL: 使用层次强化学习学习知识增强语言表征

本文提出了一种通过层次强化学习来学习知识增强语言表示的方法，该方法集成了知识图谱中的关系三元组，并通过自监督学习将这些外部数据源整合到语言模型中，以避免注入不准确或不相关的知识，并有效地提升了模型在各种自然语言理解任务上的性能。

Jun, 2024

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018