隐藏和寻找” 问题的多智能体强化学习复制

Oct, 2023

隐藏和寻找” 问题的多智能体强化学习复制

Replication of Multi-agent Reinforcement Learning for the "Hide and Seek" Problem

Haider Kamal, Muaz A. Niazi, Hammad Afzal

TL;DR强化学习中的文档化和可重现性不足，该研究使用类似 OpenAI 躲藏者和追踪者的模拟代理，通过增加飞行机制，扩大了可行动和策略范围，从而改善了躲藏者代理的追逐策略。

Abstract

reinforcement learning generates policies based on reward functions and hyperparameters. Slight changes in these can significantly affect results. The lack of documentation and →

reinforcement learning documentation reproducibility complex environments chasing strategy

发现论文，激发创造

使用强化学习学习开放域多跳搜索

本文提出了一种基于马尔科夫决策过程的演员 - 评论家强化学习算法，教会自动代理程序如何在开放领域搜索实体之间的多跳路径，并且在处理较少文档的同时仍能找到所需信息，相比几个基线启发式算法表现更优秀。

May, 2022

对抗多智能体游戏中的扩散 - 强化学习层次化运动规划

基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏（PEG）中规划机动任务展开研究。我们提出了一种分层架构，将高层扩散模型与低层强化学习算法结合，分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索，并提高了可解释性和预测能力，相较于基准模型的表现提高了 51.2%。

Mar, 2024

采用分层式 Sim2Real 实现的多智能体运动操控

采用强化学习方法通过层次性模拟实现在多移动机器人协作下的操纵行为。

Aug, 2019

ReProHRL: 多目标导航中的层级代理在真实环境中的应用

我们提出了一种名为 Ready for Production Hierarchical RL（ReProHRL）的方法，它通过强化学习来划分具有层次结构的多目标导航任务，并使用物体检测器作为预处理步骤来学习多目标导航并将其转移到真实世界中，实证结果表明，所提出的 ReProHRL 方法在模拟和真实环境中的训练时间和性能方面均优于最先进的基线方法。

Aug, 2023

多智能体强化学习中的行为层次结构建立

本文研究了多智能体游戏中的泛化问题，提出一种基于博弈论结构的分层代理架构以提高策略推广能力。该方法可以跨层次地进行信用分配，实验结果表明，与传统基线方法相比，分层代理的泛化能力更强。

Jun, 2019

多智能体自学课程中的紧急工具使用

通过多智能体竞争、自我监督的自动课程设置以及规模化的强化学习算法，我们发现代理创建了多个不同的新兴策略，其中许多需要复杂的工具使用和协调，并提供了有关多智能竞争可能扩展至更复杂环境的证据。

Sep, 2019

多拷贝强化学习代理

该论文研究了一种新型的多智能体问题，其中一个智能体通过复制自身来更好或更高效地完成单一智能体任务。我们提出了一种学习算法，用于解决多重复制问题，它利用价值函数的结构有效地学习如何平衡添加额外复制的优势和成本。

Sep, 2023

分布式多智能体目标搜索和跟踪的高斯过程与强化学习

基于分布式高斯过程的多智能体强化学习技术能够利用深度学习的最新进展，在未知目标上规划和决策，以解决传统方法所依赖的启发式问题，并在硬件实验中展示了在无人机群组上的应用性能和可迁移性。

Aug, 2023

目标驱动的模仿学习

通过整合演示（demonstrations）的方法，本研究探讨如何加速强化学习的收敛速度，以达到能够到达任何目标的策略，并且在与其他模仿学习算法训练的代理相比表现更好。

Jun, 2019

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023