Apr, 2023

学习团队对齐:基于多智体团队的自适应 Credo 框架

TL;DR在多智能体团队中使用混合激励机制具有优势,作者们提出了一个框架,在此框架下,学习智能体可以通过其奖励函数的不同部分自我调节其激励配置。他们的模型基于分层强化学习和元学习的思想,可以学习支持行为策略发展的奖励函数的配置。初步结果表明,通过自我调整各自的团队配置参数,智能体可以实现更好的全局结果。