AAAIJan, 2021
使用近似策略迭代解决共同收益博弈
Solving Common-Payoff Games with Approximate Policy Iteration
Samuel Sokota, Edward Lockhart, Finbarr Timbers, Elnaz Davoodi, Ryan D'Orazio...
TL;DR该论文提出一种名为 CAPI 的算法,它与 BAD 相似,结合了共同知识和深度强化学习,但与 BAD 不同,CAPI 优先考虑发现最优联合策略而非可扩展性。