Jan, 2014

使用抽样计算近似纳什均衡和强稳最佳响应

TL;DR本文研究在复杂的部分可观测的随机博弈中,两种用于决策的蒙特卡洛采样搜索技术,MCTS 和 MCCFR。作者发现 MCTS 能较快地找到一种强策略而 MCRNR 学得更快。