Jun, 2022

马尔可夫潜势博弈中Softmax策略梯度的收敛性和劣质纳什均衡价格保证

TL;DR本文研究使用策略梯度方法解决马尔可夫势博弈(包括完全合作的情况)的收敛性,在策略参数化方面,包括tabular和神经网络等。通过引入POA和平滑概念,给出了POA边界,并通过实验比较了不同方法的收敛速度和POA。