来自真实多智能体演示的强化学习中的自适应动作监督

May, 2023

来自真实多智能体演示的强化学习中的自适应动作监督

Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations

Keisuke Fujii, Kazushi Tsutsui, Atom Scott, Hiroshi Nakahara, Naoya Takeishi...

TL;DR本文提出了一种自适应动作监督的RL方法，通过动态时间规整的最小距离选择RL真实世界演示中的动作，使得RL模型能够在网络空间获得回报

Abstract

Modeling of real-world biological multi-agents is a fundamental problem in various scientific and engineering fields. reinforcement learning (RL) is a powerful framework to generate flexible and diverse behaviors in cyberspace; however, when modeling real-world biological multi-agents,

发现论文，激发创造

协作多智能体模仿学习

本文研究多个协调代理的演示的模仿学习问题，提出了一种综合了无监督结构学习和传统模仿学习的方法来同时学习潜在的协调模型和单个策略，通过在团队运动中学习多个策略的行为建模问题，表明了本文方法的强大之处。

Mar, 2017

利用编程的弱监督生成多智能体轨迹

本文介绍了一种用于拟合协调多智能体轨迹行为的分层生成模型框架，并利用编程生成的弱标签扩展到时空范畴，非常适合处理如篮球比赛中的复杂互动以及生成真实的多智能体轨迹。

Mar, 2018

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

关于团队运动比赛中的多智能体学习

本文提出了一种分层训练智能体的方法，以期在团队运动游戏中实现类似于人类的风格和高水平的表现，初步结果显示所提出的方法具有解决多智能体学习问题的潜力。

Jun, 2019

从运动控制到团队合作——在仿真人形足球中

本研究使用多智能体协同学习模型，在模拟环境中训练了一组虚拟的足球运动员，研究并展示了在不同时间尺度上，采用不同层次抽象的行为表征下，机器人团队的协作行为出现的现象与优势。

May, 2021

基于演示引导的强化学习与学得技能

本文提出了一种基于示教引导的强化学习方法，该方法通过提取任务中共享的子任务结构，从而显著提高学习效率，并且在迷宫导航和复杂机器人操纵任务上进行了验证。

Jul, 2021

通过自动课程学习从单个人类演示中学习指导多个异构角色在星际争霸II中

本文利用自动课程学习的方法，通过单一的人类示范将多个异质演员集中命令的命令和控制任务的整体难度进行了调整，在StarCraft II中模拟的真实军事场景中，训练出的智能体的表现超过了当下最先进的深度强化学习和匹配了人类专家的表现。

May, 2022

使用强化学习创建动态四足机器人守门员

我们提出了一个基于强化学习的框架，使得四足机器人在真实世界中执行足球门将任务。

Oct, 2022

使用课程学习和自我对弈掌握多智能体足球(TiZero)

本文提出了一种自我演化的多智能体系统TiZero，使用自适应课程学习、自我博弈策略、多方策略的优化目标等创新方法克服了多个智能体系统协调、长期规划和非传递性等现有算法无法解决的难题，并在评估环境中全胜，比谷歌提供的前一代系统获胜率提高了30%以上。对TiZero的技术进行了评估，包括在Overcooked，多智能体粒子环境，井字棋和连连看等多个领域中的应用。

Feb, 2023

模仿以获胜：多智能竞争游戏中的模仿学习策略

我们提出了一种新的多智能体模仿学习模型，用于预测对手的下一步动作，并将其与策略训练结合为一个训练过程的多智能体强化学习算法，在三个具有挑战性的游戏环境中进行了广泛实验，结果表明我们的方法在性能上优于现有的多智能体强化学习算法。

Aug, 2023