May, 2017

计算机围棋的多标签值网络

TL;DR本文提出了一种新的,称为多标记(ML)价值网络的对弈网络架构方法,该方法可以同时为不同的着手顺序补偿设置训练不同的胜率值,并提出了一个新的动态着手顺序补偿方法,以提高游戏的实力。