Apr, 2022

多智能体学习中信条的重要性

TL;DR提出了一个团队多目标优化的模型——credo,该模型规范了团队中代理人的行为优化,通过强化学习代理人在具有挑战性的社交困境中进行评估,结果表明,即使团队成员的兴趣不完全一致,也可以实现高度的平等和比兴趣一致时更显著的人均回报增长的两种方案。