通过深度强化学习学习调度，以进行车间调度

Oct, 2020

通过深度强化学习学习调度，以进行车间调度

Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning

Cong Zhang, Wen Song, Zhiguang Cao, Jie Zhang, Puay Siew Tan...

TL;DR本文提出利用端到端的深度强化学习代理自动学习优先调度规则 (Priority dispatching rule) 来解决实际的作业车间调度问题 (Job-shop scheduling problem)，探索应用离散图表示和基于图神经网络的方案将状态嵌入到神经网络中，从而实现了良好的泛化性能（generalization）。实验表明，学习的策略还表现出较强的性能，超越最佳现有 PDR，而且在训练时未使用的更大规模实例上表现出良好的性能。

Abstract

priority dispatching rule (PDR) is widely used for solving real-world job-shop scheduling problem (JSSP). However, the design of effective PDRs is a tedious task, requiring a myriad of specialized knowledge and o

priority dispatching rule job-shop scheduling problem deep reinforcement learning graph neural network generalization

发现论文，激发创造

深度强化学习在作业车间调度中的搜索应用

本文提出了一种基于图神经网络的深度强化学习方法，用于解决作业车间调度问题中的改进启发式问题，并设计了一种新颖的传递信息机制来加快解决方案评估，实验结果表明，该方法比现有的基于深度强化学习的方法在 JSSP 领域中具有更好的性能.

Nov, 2022

利用强化学习进行车间作业调度的课程学习

本研究通过引入难度变化和课程学习策略来改进深度强化学习方法，基于图嵌入实现的 DLR 方法在解决工作车间调度问题方面取得了显著的效果。

May, 2023

利用深度强化学习生成多样的调度策略解决大规模柔性车间调度实例

提出了一种使用图神经网络将灵活作业车间调度问题 (FJSSP) 建模为马尔可夫决策过程 (MDP) 的方法，通过生成多样化的调度策略并利用调度规则进行限制，实现对大型 FJSSP 实例的稳健解决，以胜过其他深度强化学习方法和调度规则，提供更好的结果。

Oct, 2023

基于约束编程的作业车间调度问题的端到端强化学习方法

本文提出了一种基于约束编程（CP）和强化学习（RL）的端到端解决调度问题的方法，通过神经网络架构和训练算法，仅需要一些调度问题的约束编码和一组小实例，我们的方法在七个 JSSP 数据集上进行了评估，并展示了其在相同时间限制内找到比静态 PDRs 和 CP 求解器更高质量的解决方案的能力。

Jun, 2023

学习调度作业车间问题：利用图神经网络和强化学习进行表示和策略学习

本研究提出一种基于图神经网络和强化学习的框架来解决工厂作业车间调度问题，该框架将调度问题表示成了状态图，并使用 GNN 进行表示学习和策略学习，最终使用 PPO 算法对模型进行优化。实验结果表明，该模型优于传统的调度规则和基于强化学习的调度器，并且可以学习到一种具有泛化能力的调度策略。

Jun, 2021

深度强化学习和关注机制的动态车间调度混合智能

本文提出了一种将动态车间调度问题 (DJSP) 建模为强化学习的马尔可夫决策流程 (MDP) 的混合框架，并结合了注意力机制作为图表示学习 (GRL) 的模块，以及双层权利分离深度 Q 网络评估最适当的调度规则，经实验证明该框架优于基准算法，并证实了这种混合框架的有效性。

Jan, 2022

基于双重注意力网络增强学习的柔性车间调度

本文提出了一种新颖的深度学习框架，该框架可以利用深度特征提取和强化学习进行可扩展决策选择，以解决灵活作业车间调度问题。这种框架使用了自我关注模型和双重自我关注网络来准确地表示和简洁地描述操作和设备之间的关系。实验结果显示，该方法在某些情况下可以比传统的基于优先级分配规则和当前最先进的强化学习方法更好地解决该问题，具有较好的泛化能力。

May, 2023

基于深度强化学习的作业车间调度：一种序列到序列方法

通过自动学习调度规则，本文提出了一种原创的端到端深度强化学习方法来解决作业调度的 NP - 难度问题，该技术受到自然语言编码器 - 解码器模型的启发，可在最小干预下用于处理其他不同的优化作业调度任务。研究结果表明，我们在利用优先调度规则方面超过了许多传统方法，并且在最先进的深度强化学习方法中取得了有竞争力的结果。

Aug, 2023

一种强化学习方法用于通过排序交换提高泛化性能的调度问题

本文介绍了一种使用 DRL 求解 JSSP 问题的新方法，该方法使用了 PPO 算法并在环境中加入了 OSM 以实现更好的泛化学习，并在可用的基准实例集上进行了深入的性能分析和比较。

Feb, 2023

在不确定条件下学习解决作业车间调度

使用深度强化学习技术搜索鲁棒解决方案的新方法，重点解决具有不确定持续时间的作业车间调度问题，并结合图神经网络和深度强化学习的 Wheatley 方法已公开提供以供进一步研究和应用。

Mar, 2024