Feb, 2023

通过陷阱区域实现多智能体学习的安全性保障

TL;DR该研究提出了陷阱区域的概念来解决多智能体学习中的算法收敛性问题,在已知学习动态的系统中使用二分法算法验证,而在不知道学习动态的情况下则使用启发式抽样算法来划分安全集合,从而确保在学习过程中不会形成危险的联合策略组合。