Oct, 2020
POMO: 强化学习中带有多个最优解的策略优化
POMO: Policy Optimization with Multiple Optima for Reinforcement Learning
Yeong-Dae Kwon, Jinho Choo, Byoungjip Kim, Iljoo Yoon, Youngjune Gwon...
TL;DR使用改进的 REINFORCE 算法的 POMO 方法,结合了基于增强的推理方法,可获得用于解决 NP-hard 问题的先进的启发式方法,可用于广泛的组合优化问题,显着提高了其性能和速度。