AAAIJan, 2021

使用近似策略迭代解决共同收益博弈

TL;DR该论文提出一种名为 CAPI 的算法,它与 BAD 相似,结合了共同知识和深度强化学习,但与 BAD 不同,CAPI 优先考虑发现最优联合策略而非可扩展性。