一种强化学习方法用于通过排序交换提高泛化性能的调度问题

Feb, 2023

一种强化学习方法用于通过排序交换提高泛化性能的调度问题

A Reinforcement Learning Approach for Scheduling Problems With Improved Generalization Through Order Swapping

Deepak Vivekanandan, Samuel Wirth, Patrick Karlbauer, Noah Klarmann

TL;DR本文介绍了一种使用 DRL 求解 JSSP 问题的新方法，该方法使用了 PPO 算法并在环境中加入了 OSM 以实现更好的泛化学习，并在可用的基准实例集上进行了深入的性能分析和比较。

Abstract

The scheduling of production resources (such as associating jobs to machines) plays a vital role for the manufacturing industry not only for saving energy but also for increasing the overall efficiency. Among the different job scheduling problems, the JSSP is addressed in this work. JS

production resources job scheduling drl ppo algorithm constrained dispatching

发现论文，激发创造

深度强化学习在作业车间调度中的搜索应用

本文提出了一种基于图神经网络的深度强化学习方法，用于解决作业车间调度问题中的改进启发式问题，并设计了一种新颖的传递信息机制来加快解决方案评估，实验结果表明，该方法比现有的基于深度强化学习的方法在 JSSP 领域中具有更好的性能.

Nov, 2022

在不确定条件下学习解决作业车间调度

使用深度强化学习技术搜索鲁棒解决方案的新方法，重点解决具有不确定持续时间的作业车间调度问题，并结合图神经网络和深度强化学习的 Wheatley 方法已公开提供以供进一步研究和应用。

Mar, 2024

基于约束编程的作业车间调度问题的端到端强化学习方法

本文提出了一种基于约束编程（CP）和强化学习（RL）的端到端解决调度问题的方法，通过神经网络架构和训练算法，仅需要一些调度问题的约束编码和一组小实例，我们的方法在七个 JSSP 数据集上进行了评估，并展示了其在相同时间限制内找到比静态 PDRs 和 CP 求解器更高质量的解决方案的能力。

Jun, 2023

利用深度强化学习生成多样的调度策略解决大规模柔性车间调度实例

提出了一种使用图神经网络将灵活作业车间调度问题 (FJSSP) 建模为马尔可夫决策过程 (MDP) 的方法，通过生成多样化的调度策略并利用调度规则进行限制，实现对大型 FJSSP 实例的稳健解决，以胜过其他深度强化学习方法和调度规则，提供更好的结果。

Oct, 2023

学习调度作业车间问题：利用图神经网络和强化学习进行表示和策略学习

本研究提出一种基于图神经网络和强化学习的框架来解决工厂作业车间调度问题，该框架将调度问题表示成了状态图，并使用 GNN 进行表示学习和策略学习，最终使用 PPO 算法对模型进行优化。实验结果表明，该模型优于传统的调度规则和基于强化学习的调度器，并且可以学习到一种具有泛化能力的调度策略。

Jun, 2021

强化学习的模因算法用于社技生产调度

本文介绍了一种利用深度强化学习应用的模因算法，用于解决实践中的双重资源约束柔性作业车间调度问题，并提出一种用于多标准优化的并行计算混合框架。通过实践证实，该框架使用 DRL 可以产生更好的结果，并优于传统方法。

Dec, 2022

利用强化学习进行车间作业调度的课程学习

本研究通过引入难度变化和课程学习策略来改进深度强化学习方法，基于图嵌入实现的 DLR 方法在解决工作车间调度问题方面取得了显著的效果。

May, 2023

在深度学习方法中利用约束编程动态解决柔性车间调度问题

我们提出了一种融合了约束编程和深度学习的方法来解决灵活作业车间调度问题，该方法通过使用约束编程生成的最优解来训练深度学习模型，以消除深度强化学习中广泛搜索的需求，并在解决过程中共同应用深度学习和约束编程来提高性能。

Mar, 2024

一种工作车间调度的强化学习环境

本研究利用深度强化学习在 Job-Shop Scheduling 中设计了高效的 DRL 环境，使用紧密联系于 COP 方法的稀疏最小化的准则的新型简单而密集的奖励函数，相对于现有的 DRL 方法在经典基准实例上表现出更好的性能，接近先进的 COP 方法。

Apr, 2021

作业车间调度中推广管理规则的学习

本文介绍了一种基于强化学习的方法来更好地推广启发式分配规则，着重研究了任务车间调度问题的一般性问题，并提出了新颖的对抗性课程学习策略，该策略动态调整了学习过程中的难度水平来重新访问表现最差的问题实例。实验结果表明，这种方法明显优于当前 JSP 模型的现有技术水平，平均优化程度从 Taillard 的案例降低了 19.35％到 10.46％，从 Demirkol 的案例降低了 38.43％到 18.85％。

Jun, 2022