May, 2022

BRExIt: 关于专家迭代中对手建模的研究

TL;DR提出了一种名为BRExIt的学习算法,利用对手模型来提高学习的效率和性能,在Connect4游戏中的实验验证,BRExIt算法具有更高的采样效率,能够学习出表现优异的策略。