通过自动课程学习的多智能体追逐任务求解器

Dec, 2023

通过自动课程学习的多智能体追逐任务求解器

TaskFlex Solver for Multi-Agent Pursuit via Automatic Curriculum Learning

Jiayu Chen, Guosheng Li, Chao Yu, Xinyi Yang, Botian Xu...

TL;DR本研究介绍了一种结合强化学习和课程学习的灵活求解器（TaskFlex Solver，TFS），能够在二维和三维场景中解决具有多样和动态任务条件的多智能体追捕问题，通过构建基于训练进展的任务分布来提高训练效率和最终性能。实验表明，TFS 在不同场景中的多智能体追捕问题中比基线模型表现更强，并且能够实现接近 100% 的捕获率。

Abstract

This paper addresses the problem of multi-agent pursuit, where slow pursuers cooperate to capture fast evaders in a confined environment with obstacles. Existing heuristic algorithms often lack expressive coordination strategies and are highly sensitive to task conditions, requiring ex

multi-agent pursuit reinforcement learning cooperative pursuit strategies curriculum learning taskflex solver (tfs)

发现论文，激发创造

通过价值分歧进行自动课程学习

通过提出自动课程设计和目标建议模块，来提高强化学习中的多任务目标采样效率，并在机器人和导航任务中展示了比现有方法更好的性能。

Jun, 2020

四人共舞：多智能体自我对弈用于自动生成课程

本研究提出一种自动化生成目标课程的框架 ——Curriculum Self Play（CuSP），通过多人游戏的方式平衡合作和竞争的关系，解决了训练通用强化学习智能体所面临的困难，并成功地生成了适用于各种控制任务的目标课程。

Feb, 2022

通过设置器 - 求解器交互自动生成课程

研究探讨了如何在动态的环境下使用自动生成的任务大纲来改善智能体的效果，介绍了使用目标的有效性、可行性和覆盖面的考虑来构建有用的任务大纲的新技术，并在 2D 和 3D 环境中展示了成功应用。

Sep, 2019

使用子任务课程学习复杂的团队协作任务

使用专家提供的课程，针对复杂的多智能体任务，通过细化子任务，进行训练，并通过调节学习和探索的超参数，使子团队能够更好地完成更复杂的目标任务，取得了基于从头开始和简单微调技术的多智能体强化学习的更好效果。

Feb, 2023

任务分阶段：从示范中自动学习课程

本文介绍了一种基于任务分阶段的机器学习方法，通过逐步提高任务复杂度并调节反馈信息，针对稀疏奖励问题下的强化学习进行探索，并取得了较好成果。

Oct, 2022

深度强化学习中具有任务关联的近端课程

基于近发展区概念，我们提出了一种名为 ProCuRL-Target 的新型课程计划，它可以在复杂任务的目标分布上平衡选择任务的需要，通过利用任务之间的相关性推动代理的学习，从而加速深度强化学习代理的训练过程。

May, 2024

基于视觉的追逐 - 逃避机器人策略学习

将从追逐 - 逃避互动中学习战略性机器人行为这一实际约束下的问题转化为一个监督学习问题，其中完全可观测的机器人策略为部分可观测的机器人策略生成监督信号，并发现这个监督信号的质量依赖于两个关键因素：逃避者行为的多样性与最优性的平衡以及完全可观测策略中的建模假设的强度。在野外的追逐 - 逃避互动中，我们部署了这个策略在一台带有 RGB-D 相机的四足机器人上，尽管面临各种挑战，感知限制激发了创造力：机器人在不确定时努力收集信息，从嘈杂的测量中预测意图，并为了拦截而提前预判。

Aug, 2023

尝试时重来，而不是尝试更久：自适应课程学习的先验学习

该研究论文提出了一种两阶段自适应教学方法，以提高深度强化学习（DRL）智能体的性能，主要包括使用过程生成任务、自动课程学习（ACL）和探索课程等关键词。

Apr, 2020

多智能体强化学习中的协作课程学习

在多智能体环境中，通过使用降低技能水平的协作队友为学习代理制定学习课程，能够同时实现任务完成与整体团队奖励最优。

Dec, 2023

通过不确定性和时间距离感知的课程目标生成的以结果为导向的强化学习

本文提出了一种针对增强学习的不确定性和时间距离感知课程目标生成方法，通过解决二分图匹配问题，为课程提供精确的指导，从而更好地解决了先前课程 RL 方法中存在的问题，并在数量和质量上显著优于这些方法。

Jan, 2023