Dec, 2020

透明对手之间的双人游戏学习

TL;DR本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境,考虑透明性决策制定对于对手的预测及对手感知梯度步长能力,探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题,发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中,由于平衡点的选择问题,需要进一步开发适合的对手感知学习算法。