Mar, 2023

基于线性函数逼近的纳什 Q 学习的有限样本保证

TL;DR本研究分析使用线性函数近似的 Nash Q-learning 在多智能体强化学习中学习构成 Nash 均衡的策略,并提供有限样本保证,表明其样本效率。研究发现,该方法的性能与单智能体强化学习相当,且比表格化算法的最佳结果差一个多项式差距。