使用子任务课程学习复杂的团队协作任务

Feb, 2023

使用子任务课程学习复杂的团队协作任务

Learning Complex Teamwork Tasks using a Sub-task Curriculum

Elliot Fosong, Arrasy Rahman, Ignacio Carlucho, Stefano V. Albrecht

TL;DR使用专家提供的课程，针对复杂的多智能体任务，通过细化子任务，进行训练，并通过调节学习和探索的超参数，使子团队能够更好地完成更复杂的目标任务，取得了基于从头开始和简单微调技术的多智能体强化学习的更好效果。

Abstract

Training a team to complete a complex task via multi-agent reinforcement learning can be difficult due to challenges such as policy search in a large policy space, and non-stationarity caused by mutually adapting agents. To facilitate efficient learning of complex multi-agent tasks, we propose an approach which uses an →

multi-agent reinforcement learning expert-provided curriculum sub-task-specific policies fine-tuning process teamwork tasks

发现论文，激发创造

多智能体强化学习中基于任务嵌入的团队合作适应

本文提出了一种使用多智能体任务嵌入（MATE）解决团队合作适应性问题的新方法，使用深度学习技术将任务嵌入到低维空间中进行编码和解码，利用 MATE 训练范例建立三种任务编码模型，通过分析测试结果发现，MATE 学习的任务嵌入鲜明区分不同的任务，并能在多任务情境下产生非常好的适应性效果。

Jul, 2022

层次深度强化学习下的复合任务完成对话策略学习

本文针对复杂任务对话代理的构建问题，如旅行规划，通过将任务公式化为基于马尔可夫决策过程的选项数学框架，并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器，包括顶层对话策略、低层对话策略和全局状态跟踪器，实验结果表明该方法在模拟和真实用户的旅行规划任务中，相比于三个基于手工规则和基于平面深度强化学习的基准系统，有显著的改进。

Apr, 2017

学习在团队规模间转移角色分配

我们提出了一个基于角色的多智能体强化学习框架，该框架使用角色分配网络将学习代理分配到团队中，以适应不同的团队大小，并通过 StarCraft II 模拟来展示该方法的有效性。

Apr, 2022

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020

部分可观测下的深度分散式多任务多智能体强化学习

研究了多智能体下的多任务增强学习问题，提出了一种去中心化的单任务学习方法，并介绍了一种将单任务策略转化为适用于多个相关任务的统一策略的方法，无需明确标识任务身份。

Mar, 2017

基于深度强化学习的分层任务分解：拾取和放置子任务

提出一种多子任务增强学习的方法，将复杂的拾取和放置任务分解为低级子任务，并通过 DRL 方法学习，然后高级协调员将训练好的子任务组合来完成拾取和放置任务，此方法在样本效率方面表现优于以 LfD 为基础的基准方法，并在实际机器人系统中展示了鲁棒的抓握能力。

Feb, 2021

多智能体强化学习中的协作课程学习

在多智能体环境中，通过使用降低技能水平的协作队友为学习代理制定学习课程，能够同时实现任务完成与整体团队奖励最优。

Dec, 2023

基于任务关系建模的多智体策略迁移

本文提出了一种基于任务表示的团队适应方法，通过学习任务之间的共同结构，使得团队可以在少量的源任务学习之后将协作知识传递到新任务上。我们发现微调转移策略有助于解决那些从头开始难以学习的任务。

Mar, 2022

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019