Aug, 2022

学习双人混合马尔可夫博弈:核函数逼近和相关均衡

TL;DR本论文提出了一种基于优化原则的在线学习算法,通过在函数空间中最小化对偶差来寻找Nash均衡点,在马尔科夫博弈中进行非线性函数逼近,解决了高维函数空间中的探索问题,并扩展了几种算法,其中一个可以实现更紧的遗憾上界,另一个可以应用于神经网络函数逼近的模型错误说明。