KDDOct, 2019

运用强化学习和迁移学习的制造调度

TL;DR本文针对制造业生产中派工问题,运用强化学习提出了一种新的设计方法,将车间状态表示为 2D 矩阵,设计了适用于派工目的的延迟和超时奖励函数,并采用调度策略转移方法增强模型泛化能力和节省模型训练和数据收集时间。实验结果显示该方法在总折扣奖励和平均延迟、超时方面表现最佳。