Jul, 2018

排序奖励:为组合优化实现自我对弈强化学习

TL;DR本文介绍了一个名为 Ranked Reward(R2)的算法,它能够将敌对自我博弈用于单人游戏,并将其应用于维度为 2 和 3 的装箱问题,证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器,并对排名奖励机制进行了分析。