隐藏和寻找” 问题的多智能体强化学习复制
本文提出了一种基于马尔科夫决策过程的演员 - 评论家强化学习算法,教会自动代理程序如何在开放领域搜索实体之间的多跳路径,并且在处理较少文档的同时仍能找到所需信息,相比几个基线启发式算法表现更优秀。
May, 2022
基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏(PEG)中规划机动任务展开研究。我们提出了一种分层架构,将高层扩散模型与低层强化学习算法结合,分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索,并提高了可解释性和预测能力,相较于基准模型的表现提高了 51.2%。
Mar, 2024
我们提出了一种名为 Ready for Production Hierarchical RL(ReProHRL)的方法,它通过强化学习来划分具有层次结构的多目标导航任务,并使用物体检测器作为预处理步骤来学习多目标导航并将其转移到真实世界中,实证结果表明,所提出的 ReProHRL 方法在模拟和真实环境中的训练时间和性能方面均优于最先进的基线方法。
Aug, 2023
本文研究了多智能体游戏中的泛化问题,提出一种基于博弈论结构的分层代理架构以提高策略推广能力。该方法可以跨层次地进行信用分配,实验结果表明,与传统基线方法相比,分层代理的泛化能力更强。
Jun, 2019
通过多智能体竞争、自我监督的自动课程设置以及规模化的强化学习算法,我们发现代理创建了多个不同的新兴策略,其中许多需要复杂的工具使用和协调,并提供了有关多智能竞争可能扩展至更复杂环境的证据。
Sep, 2019
该论文研究了一种新型的多智能体问题,其中一个智能体通过复制自身来更好或更高效地完成单一智能体任务。我们提出了一种学习算法,用于解决多重复制问题,它利用价值函数的结构有效地学习如何平衡添加额外复制的优势和成本。
Sep, 2023
基于分布式高斯过程的多智能体强化学习技术能够利用深度学习的最新进展,在未知目标上规划和决策,以解决传统方法所依赖的启发式问题,并在硬件实验中展示了在无人机群组上的应用性能和可迁移性。
Aug, 2023
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
Jun, 2019
本文提出了一种自适应动作监督的 RL 方法,通过动态时间规整的最小距离选择 RL 真实世界演示中的动作,使得 RL 模型能够在网络空间获得回报
May, 2023