Jul, 2018
排序奖励:为组合优化实现自我对弈强化学习
Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization
Alexandre Laterre, Yunguan Fu, Mohamed Khalil Jabri, Alain-Sam Cohen, David Kas...
TL;DR本文介绍了一个名为 Ranked Reward(R2)的算法,它能够将敌对自我博弈用于单人游戏,并将其应用于维度为 2 和 3 的装箱问题,证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器,并对排名奖励机制进行了分析。