本文提出了一种以 Feudal RL 为基础的对话管理架构,利用领域本体结构信息抽象出对话状态空间,并在不需要额外奖励信号的情况下,在几个对话领域和环境中显著优于先前的最新成果。
Mar, 2018
介绍了一种新的分层强化学习方法,即 FeUdal Networks,该方法采用 “管理者 - 工作者” 框架,在不同的时间分辨率上进行端到端的学习,以完成由管理者设定的抽象目标,并且旨在解决长时间跨度的信用分配问题,并在 ATARI 和 DeepMind Lab 中的任务上取得显著优势。
Mar, 2017
通过使用封建学习的新方法,我们构建了一个由工人代理、中层经理和高层经理组成的层次结构,其中,高层经理使用自我监督的方式学习了一个内在空间的记忆代理图,中层经理经由一种新的代理网络进行训练,以模仿人类在局部导航过程中选择中间目标的行为,从而实现了接近最强系统的表现,并提供了一种新的、无强化学习、无图表、无测距法、无度量图的图像目标导航方法。
Feb, 2024
本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法,使用 Goals Relational Graph 优化部分可观察的目标导向任务,例如目标驱动视觉导航,实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。
Mar, 2021
本文提出了一种新的深度强化学习框架 FedRL,旨在联邦地建立高质量的代理模型,其中考虑到其隐私,并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中,该框架与各种基线模型进行了比较。
Jan, 2019
该研究论文探讨了在图形环境中基于图的多智能体强化学习所面临的挑战,并提出了一种通过与周围节点交换信息来创建全局图表示的循环传递信息模型,并在通信网络中的路由上验证了该方法,发现它使智能体能够泛化和适应图中的变化。
使用层次强化学习方法控制电网拓扑结构,通过在不同层次应用强化学习算法,实现电网操作的长期目标且在困难任务上超越其他方法。
Nov, 2023
本文提出了一种基于图形输入的两步式 RL 策略,透过实用化分类问题将决策过程分解为两个步骤并采用规则挖掘器进行推理,能够生成可解释和鲁棒的分层策略并在复杂文本游戏领域呈现出更好的泛化和稳健性。
Jan, 2022
通过引入计算图神经网络,本文提出了可用于解决餐厅预订等复合型任务的层次式深度强化学习新方法,并在实验中展示其相较于传统方法更高的采样效率、更好的噪声抵抗力和更好的模型迁移性能。
Sep, 2020
通过图神经网络和自回归策略分解,构建了一个深度强化学习框架,在多样化场景下表现出了出色的竞争能力和卓越的零 - shot 泛化能力.