Jun, 2019

基于特征的Q学习在双人随机博弈中的应用

TL;DR提出在给定特征空间中嵌入转移函数的二人零和随机博弈中,通过采样逼近纳什均衡策略的二人Q-learning算法,已证明可使用与特征数线性相关的样本大小找到ε最优策略;进一步改进算法的样本效率,采用方差约减、单调性保持和双侧策略逼近等技术来加速算法,证明了该算法最多只需要使用O~(K/(ε^2(1-γ)^4))个样本即可以高概率找到ε最优策略,其中K是特征数,γ是折扣系数;算法的样本、时间和空间复杂度与游戏的原始维度无关。