May, 2022

半监督模仿学习从次优演示中学习团队策略

TL;DR本文提出了Bayesian Team Imitation Learner (BTIL)算法,该算法可用于多智能体领域中的团队序列任务的建模,通过对团队成员的心理状态进行显式建模和推断,从而实现了分散式团队策略的学习。此外,BTIL采用Bayesian的观点,能够从小型数据集合半监督演示中实现样本和标记的高效学习。经过实验,证明了BTIL可以从演示中成功地学习团队策略,尽管团队成员的心理状态是会发生变化并可能导致团队不完美的合作。