Oct, 2022

基于人群的组合优化强化学习

TL;DR通过引入基于Population的强化学习思想,由于其在最大化性能时尚未预定义特定的多样性,证明了该方法产生一组互补的策略,并在三个著名的NP-hard问题上获得最新的强化学习结果:旅行推销员问题(TSP),分配式车辆路径规划问题(CVRP)和01背包问题(KP)。在特定的TSP问题上,其超过先前的最先进技术,将最优性差距分为5个,同时缩短了推理时间超过一个数量级。