在部分可观察情况下协助未知任务的未知团队成员:即兴团队合作
该论文提出了一种关于部分可观测性的临时小组合作模式的正式定义,并提出了一种基于模型的首要方法,仅依赖先前知识和对环境的部分观察以执行临时小组合作。通过我们在 11 个领域的 70 个部分可观测马尔可夫决策过程的实验结果表明,我们的方法不仅能有效地帮助未知队友解决未知任务,而且在更具挑战性的问题上表现出强大的扩展性。
Sep, 2023
采用基于非单调逻辑推理以及少量有限数据所学的其他代理行为预测模型的架构,通过支持在线选择、适应和学习模型以及在部分可观测性和有限通信存在下与队友协作来解决无先协调时代理与队友协作问题,实验证明该模型的性能在简单和复杂情况下都优于或与最先进的数据驱动基线相当,特别是在有限的训练数据、部分可观测性和团队组成的变化存在下。
Jun, 2023
本文研究了开放式临时团队合作的问题,通过使用图神经网络架构的强化学习方法,在完全可观测和部分可观测的情况下开发了一类解决方案,其中包括对 latant environment states 和 team composition 的支持,以获得最优策略。实验结果表明我们的方法能有效地学习到团队成员行为的影响,以及在部分可观测的环境中推断环境的固有状态。
Oct, 2022
在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景,在完全合作的多智能体强化学习中,学习算法控制着场景中的所有智能体,而在特定团队合作中,学习算法通常只控制场景中的单个智能体。然而,在现实世界中,许多合作场景要求更灵活的学习方法。本文提出了 N - 智能体特定团队合作算法(POAM),用于解决在评估阶段必须与动态变化的不同类型的队友进行交互和合作的智能体问题,并通过学习队友行为的表示来适应各种队友行为。在《星际争霸 II》任务的实证评估中,POAM 相对于基准方法提高了协作任务的回报,并实现了对未见过队友的分布外泛化。
Apr, 2024
本文提出建立一个自主代理,该代理可以在没有先前的协调机制的情况下快速适应以与队友合作的挑战性问题,包括联合培训,该解决方案基于图神经网络学习代理模型和不同团队组成下的联合行动价值模型,并提出了新的行动价值计算方法, 经实验证明,该方法成功地模拟了其他代理对学习器的影响,导致了可以稳健地适应动态团队组成并显着优于若干替代方法的策略。
Jun, 2020
本研究使用部分可观察的马尔可夫决策过程(POMDP)建立了共享自主体系的模型,实现了在未知目标目的情况下,最小化期望成本并提供有用的援助,比传统预测 - 执行方法更快,需要更少的用户输入,减少用户闲置时间并减少用户与机器人的碰撞。
Jun, 2017
论文提出的新度量方法 EDP 和规划算法可解决 “即兴团队合作” 中出现的困难,其中队员可在特定费用下相互通信但必须平衡基于观察还是基于通信的计划识别。
Mar, 2021
人工智能与未知代理的协作中,使用了基于内核密度贝叶斯逆学习方法和预训练的、目标条件下的策略以实现零 - shot 策略适应性。该框架在多样的未知代理环境中得到验证,结果表明在合作场景中,其卓越的团队表现推动了人工智能与未知代理的发展。
Mar, 2024
研究了多智能体下的多任务增强学习问题,提出了一种去中心化的单任务学习方法,并介绍了一种将单任务策略转化为适用于多个相关任务的统一策略的方法,无需明确标识任务身份。
Mar, 2017
本研究提出了一种应用于团队协作的体系结构,通过结合基于知识的和基于数据驱动的推理和学习,能够实现协作对象的行为预测、适应性、透明性和更好的性能。
Aug, 2022