Oct, 2020

端到端游戏学习和干预

TL;DR本文提出了一个通过学习和干预博弈进行端到端优化的框架,将博弈均衡作为个体层级进行整合,并提出了两种不同的方法用于学习个体的收益函数并在解决变分不等式的过程中进行反向传播。