Jun, 2020

使用强化学习的受限组合优化

TL;DR本文提出一个深度强化学习的框架来解决受限的组合优化问题,将受约束的组合问题定义为完全可观的受约束马尔可夫决策过程(CMDP),并提出从不满足的约束产生惩罚信号,以推断作为启发式算法的策略。通过对约束工厂和资源分配问题进行的实验表明,本文的提议对于比较经典的启发式算法、元启发式算法和约束编程(CP)求解器来说,能更快地求得答案。