Sep, 2011

双人双动作博弈中Boltzmann Q-Learning的动态

TL;DR研究了在Boltzmann探索机制下Q-learning在二人博弈中的动态性质,发现存在额外的关键状态,同时结果表明,多个纳什均衡点引起的收敛现象在探索度临界值处可能发生显著变化。