Oct, 2020

POMO: 强化学习中带有多个最优解的策略优化

TL;DR使用改进的 REINFORCE 算法的 POMO 方法,结合了基于增强的推理方法,可获得用于解决 NP-hard 问题的先进的启发式方法,可用于广泛的组合优化问题,显着提高了其性能和速度。