Feb, 2023

随机博弈的高效 Q 学习

TL;DR本文提出了新的高效 Q 学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计 Q 函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。