Oct, 2023

矩阵博弈中的接近最优纯探索:随机赌博机和决斗赌博机的一般化

TL;DR这篇研究论文探讨了具有噪声的两人零和矩阵博弈中,识别纯策略纳什均衡(PSNE)的样本复杂度。研究人员设计了一个接近最优的算法,其样本复杂度与已知的下界相匹配,同时解决了纯探索问题和dueling bandits问题,且结果与最优边界相匹配。