使用因子图为基础的表格强化学习中学习多智能体选项

Jan, 2022

使用因子图为基础的表格强化学习中学习多智能体选项

Learning Multi-agent Options for Tabular Reinforcement Learning using Factor Graphs

Jiayu Chen, Jingdi Chen, Tian Lan, Vaneet Aggarwal

TL;DR本文提出了一种基于 Kronecker 图的多智能体协同探索的选项发现方法，通过鼓励智能体连接相应的最小或最大 Fiedler 向量，构建多智能体共同目标状态，从而在多智能体任务中实现更快的探索和更高的累积奖励。

Abstract

Covering option discovery has been developed to improve the exploration of reinforcement learning in single-agent scenarios with sparse reward signals, through connecting the most distant states in the embedding

reinforcement learning option discovery multi-agent scenarios collaborative exploration kronecker graph

发现论文，激发创造

基于 Kronecker 图的可扩展多代理技能发现

通过直接计算多智能体任务的 Laplacian 谱，我们提出一种基于 Kronecker 图的多智能体选项发现方法，通过估计 Fiedler 向量来改善联合状态空间的连通性，并通过深度学习扩展方法来处理无限规模状态空间。在 Mujoco 等模拟器上的多智能体任务评估中，我们的方法成功地识别了多智能体选项，并显著优于现有技术。

Jul, 2023

多智体深度探索覆盖选项

通过 HA-MSAC 和协同机制来构造多智能体协作选项并提高协作效率和任务奖励。

Oct, 2022

多任务选项学习与发现在随机路径规划中的应用

应用强化学习模式下，通过数据驱动方法生成抽象状态，计算有效的选项和高级实现路径，从而获得可执行和可解决性的强大保证。

Sep, 2022

基于深度后继表示的特征值选项发现

本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点，扩展了现有算法以适应具有随机转换且不存在人工特征的环境，并提出了一种算法，用于从原始图像中学习非线性状态表示，从而发现 eigenoptions，从传统表格模型和 Atari 2600 游戏中的实验结果表明，该算法具有潜力。

Oct, 2017

基于深度拉普拉斯选项的时间扩展探索

本文提出一种基于图拉普拉斯算子的在线深度强化学习算法，用于生成探索选项，通过在基于像素的任务中的比较，证明了该算法的有效性、通用性和非静态环境下的优越性。

Jan, 2023

通过元学习子目标发现选项

使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Feb, 2021

大规模多智能体系统的分解 Q 学习

本文针对多智能体场景下动态和智能体之间的复杂性引起的动作空间爆炸问题，提出将 Q 函数近似为分解成对交互的高阶高维张量，并利用复合深度神经网络实现计算，借此简化模型，加快学习过程，通过在多个场景上的实验得出，该方法表现良好。

Sep, 2018

多智能体强化学习中的图卷积值分解

该论文提出了一种新颖的基于图神经网络的多智能体深度强化学习价值函数分解框架，包括目标团队代理作为一组完整有向图的节点、采用注意机制进行边权重控制、推出混合 GNN 模块用于把团队状态 - 动作价值函数分解为单独智能体的观测 - 动作价值函数、显式接受损失分配。该方法称为 GraphMIX，能够优于当前最先进方法，可用于 StarCraft II 多智能体挑战基准测试中，同时能够改善智能体性能并使其适应更高数量和 / 或操作的不匹配测试情景。

Oct, 2020

通过最小化覆盖时间发现探索选项

该论文研究强化学习中处理稀疏回报的方法，提出了通过构造最小化覆盖时间的选项来加速探索的算法，并在多个领域实验证明其可以改善学习效率。

Mar, 2019

强化学习中的选项发现拉普拉斯框架

本文介绍了如何通过引入特征奇异目的 (intrinsic reward functions) 从学习过后的 PVFs 中隐式定义选项来解决选项发现问题，从而在强化学习中同时解决了表示学习和选项发现两大难题。

Mar, 2017