Feb, 2023

随机博弈的高效Q学习

TL;DR本文提出了新的高效Q学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计Q函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。