用于分层强化学习的封建网络

Mar, 2017

FeUdal Networks for Hierarchical Reinforcement Learning

Alexander Sasha Vezhnevets, Simon Osindero, Tom Schaul, Nicolas Heess, Max Jaderberg...

TL;DR介绍了一种新的分层强化学习方法，即 FeUdal Networks，该方法采用 “管理者 - 工作者” 框架，在不同的时间分辨率上进行端到端的学习，以完成由管理者设定的抽象目标，并且旨在解决长时间跨度的信用分配问题，并在 ATARI 和 DeepMind Lab 中的任务上取得显著优势。

Abstract

We introduce feudal networks (FuNs): a novel architecture for hierarchical reinforcement learning. Our approach is inspired by the feudal reinforcement learning proposal of Dayan and Hinton, and gains power and efficacy by decoupling end-to-end learning across multiple levels -- allowi

feudal networks hierarchical reinforcement learning manager module worker module long-term credit assignment

发现论文，激发创造

封建图强化学习

使用封建式的强化学习方法，通过分层的图表示来控制具有不同结构的物理代理，并在基准环境中证明框架的概念及其在标准基准和零点转移学习设置方面的良好结果。

Apr, 2023

封建式转向：针对转向角预测的层次学习

本论文提供了一种基于封建网络和分层强化学习的车辆代理预测从车辆驾驶数据集中的第一视角实时图像进行自动驾驶方向盘角度预测的新方法，演示了在 Udacity 数据集上最先进的预测结果。

Jun, 2020

封建网络：视觉导航

通过使用封建学习的新方法，我们构建了一个由工人代理、中层经理和高层经理组成的层次结构，其中，高层经理使用自我监督的方式学习了一个内在空间的记忆代理图，中层经理经由一种新的代理网络进行训练，以模仿人类在局部导航过程中选择中间目标的行为，从而实现了接近最强系统的表现，并提供了一种新的、无强化学习、无图表、无测距法、无度量图的图像目标导航方法。

Feb, 2024

大型领域对话管理中的封建强化学习

本文提出了一种以 Feudal RL 为基础的对话管理架构，利用领域本体结构信息抽象出对话状态空间，并在不需要额外奖励信号的情况下，在几个对话领域和环境中显著优于先前的最新成果。

Mar, 2018

联邦深度强化学习

本文提出了一种新的深度强化学习框架 FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中，该框架与各种基线模型进行了比较。

Jan, 2019

层次强化学习用于时间模式预测

我们探索了使用分层强化学习（HRL）来预测时间序列的任务。结合深度学习和分层强化学习的方法，我们开发了一个股票智能体来预测历史股价数据的时间序列，以及一个车辆智能体来预测第一人称车载摄像头图像中的转向角。我们在两个领域的结果表明，称为封建式强化学习的一种 HRL 方法，在训练速度、稳定性和预测准确性方面都有显著的改进。其中的关键因素是多分辨率结构，将时间和空间抽象引入了网络层次结构。

Oct, 2023

分层深度强化学习：整合时间抽象和内在动机

文章介绍了一种名为 Hierarchical-DQN 的框架，结合了分层的值函数、内在动机和深度强化学习，在稀疏反馈的环境中，Hierarchical-DQN 可以提供灵活的目标规定和高效的探索，通过在两个问题上的实验表明该方法的有效性。

Apr, 2016

使用神经网络奖励函数的开放式强化学习

该研究提出了一种使用神经网络编码奖励函数的方法，通过迭代训练，以鼓励更复杂的行为，实现在高维度机器人和像素级环境下的无监督学习，从而学习包括前空翻和单腿奔跑等丰富的技能。

Feb, 2022

个性化联邦超网络用于多任务强化学习的隐私保护

本文介绍了一种新型的多智能体强化学习模型 Personalized Federated Hypernetworks (PFH)，并将其应用于少样本迁移 (transfer) 学习和 RL 场景中的能源需求响应 (price-setting)，实验结果表明 PFH 能够在保持数据安全的前提下达到多个任务的高效学习。

Oct, 2022

电力网络拓扑控制的分层强化学习

使用层次强化学习方法控制电网拓扑结构，通过在不同层次应用强化学习算法，实现电网操作的长期目标且在困难任务上超越其他方法。

Nov, 2023