使用子任务课程学习复杂的团队协作任务
本文提出了一种使用多智能体任务嵌入(MATE)解决团队合作适应性问题的新方法,使用深度学习技术将任务嵌入到低维空间中进行编码和解码,利用 MATE 训练范例建立三种任务编码模型,通过分析测试结果发现,MATE 学习的任务嵌入鲜明区分不同的任务,并能在多任务情境下产生非常好的适应性效果。
Jul, 2022
本文针对复杂任务对话代理的构建问题,如旅行规划,通过将任务公式化为基于马尔可夫决策过程的选项数学框架,并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器,包括顶层对话策略、低层对话策略和全局状态跟踪器,实验结果表明该方法在模拟和真实用户的旅行规划任务中,相比于三个基于手工规则和基于平面深度强化学习的基准系统,有显著的改进。
Apr, 2017
我们提出了一个基于角色的多智能体强化学习框架,该框架使用角色分配网络将学习代理分配到团队中,以适应不同的团队大小,并通过 StarCraft II 模拟来展示该方法的有效性。
Apr, 2022
本文提出了一种新颖的少样本强化学习问题,其通过任务的子任务图描述一组子任务及其依赖关系,我们开发了一种元学习器,即消息传递子任务图推理器(MSGI),该学习器通过与环境交互推断任务的潜在参数,并采用上限置信界中得到启发的内在奖励以促进有效探索,实验结果表明该方法能够准确推断潜在任务参数, 并比现有的元强化学习和分层强化学习方法更有效地适应。
Jan, 2020
研究了多智能体下的多任务增强学习问题,提出了一种去中心化的单任务学习方法,并介绍了一种将单任务策略转化为适用于多个相关任务的统一策略的方法,无需明确标识任务身份。
Mar, 2017
提出一种多子任务增强学习的方法,将复杂的拾取和放置任务分解为低级子任务,并通过 DRL 方法学习,然后高级协调员将训练好的子任务组合来完成拾取和放置任务,此方法在样本效率方面表现优于以 LfD 为基础的基准方法,并在实际机器人系统中展示了鲁棒的抓握能力。
Feb, 2021
本文提出了一种基于任务表示的团队适应方法,通过学习任务之间的共同结构,使得团队可以在少量的源任务学习之后将协作知识传递到新任务上。我们发现微调转移策略有助于解决那些从头开始难以学习的任务。
Mar, 2022
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在 Minecraft 游戏中进行了验证。
Dec, 2017
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019