Apr, 2021

一种工作车间调度的强化学习环境

TL;DR本研究利用深度强化学习在 Job-Shop Scheduling 中设计了高效的 DRL 环境,使用紧密联系于 COP 方法的稀疏最小化的准则的新型简单而密集的奖励函数,相对于现有的 DRL 方法在经典基准实例上表现出更好的性能,接近先进的 COP 方法。