临时团队合作中的规划通信期望值
本文提出建立一个自主代理,该代理可以在没有先前的协调机制的情况下快速适应以与队友合作的挑战性问题,包括联合培训,该解决方案基于图神经网络学习代理模型和不同团队组成下的联合行动价值模型,并提出了新的行动价值计算方法, 经实验证明,该方法成功地模拟了其他代理对学习器的影响,导致了可以稳健地适应动态团队组成并显着优于若干替代方法的策略。
Jun, 2020
采用基于非单调逻辑推理以及少量有限数据所学的其他代理行为预测模型的架构,通过支持在线选择、适应和学习模型以及在部分可观测性和有限通信存在下与队友协作来解决无先协调时代理与队友协作问题,实验证明该模型的性能在简单和复杂情况下都优于或与最先进的数据驱动基线相当,特别是在有限的训练数据、部分可观测性和团队组成的变化存在下。
Jun, 2023
基于认识逻辑的合作代理研究中探讨了在没有共享模型的情况下,代理能够通过动态规划行动或交流来解决合作中的不一致。研究提出了一种在条件信念逻辑基础上扩展的形式化表示方法,用于显式地表示代理对可行计划和执行状态的嵌套信念,同时提供基于蒙特卡洛树搜索的在线执行算法,包括用于解释计划可行性、宣布意图和提问的通信行动,并通过评估算法的成功率和可扩展性证明,我们的代理能够更好地适应没有共享模型的团队合作。
Jul, 2023
本文研究了开放式临时团队合作的问题,通过使用图神经网络架构的强化学习方法,在完全可观测和部分可观测的情况下开发了一类解决方案,其中包括对 latant environment states 和 team composition 的支持,以获得最优策略。实验结果表明我们的方法能有效地学习到团队成员行为的影响,以及在部分可观测的环境中推断环境的固有状态。
Oct, 2022
该论文提出了一种关于部分可观测性的临时小组合作模式的正式定义,并提出了一种基于模型的首要方法,仅依赖先前知识和对环境的部分观察以执行临时小组合作。通过我们在 11 个领域的 70 个部分可观测马尔可夫决策过程的实验结果表明,我们的方法不仅能有效地帮助未知队友解决未知任务,而且在更具挑战性的问题上表现出强大的扩展性。
Sep, 2023
本篇论文提出了一种基于协调的认知预测和规划框架来解决多机器人系统中的非通信性渲染问题,同时实现了探索、覆盖、任务发现和完成以及汇合应用等任务,该框架通过基于前沿的方法在人工物理学框架内实现置信状态的传播和环境覆盖,经过模拟和实验验证了其有效性。
Feb, 2023
为解决多智能体协同中的最优性和复杂性问题,研究提出了一种统一框架,称为 COM-MTDP,它将多智能体理论结合并推广,并提供了一种可用于评估最优性 - 复杂性交换的工具,并为团队协调算法的开发提供了基础;通过该框架分析了不同问题领域下构建最优团队的计算复杂性,以及了两种联合意图策略的优选通信策略比较。
Jun, 2011
本研究提出了一种应用于团队协作的体系结构,通过结合基于知识的和基于数据驱动的推理和学习,能够实现协作对象的行为预测、适应性、透明性和更好的性能。
Aug, 2022