将强化学习作为现实生产调度的改进启发式方法

Sep, 2024

将强化学习作为现实生产调度的改进启发式方法

Reinforcement Learning as an Improvement Heuristic for Real-World Production Scheduling

Arthur Müller, Lukas Vollenkemper

TL;DR本研究解决了应用强化学习（RL）于现实多目标生产调度问题的不足。通过将RL代理训练为改进启发式，初始从次优解出发，逐步应用小变更以提升解的质量。实验表明，该方法在与其他启发式比较时表现出更优的性能，潜在地提升生产调度的效率。

Abstract

The integration of Reinforcement Learning (RL) with Heuristic Methods is an emerging trend for solving optimization problems, which leverages RL's ability to learn from the data generated during the search proces

发现论文，激发创造

强化学习用于整数规划：学习剪切

应用深度强化学习技术提升整数规划问题求解算法中割平面方法(Cutting Plane Method)的性能表现。通过对算法的智能自适应选择，和其在分支定界算法(Branch-and-Cut algorithm)中的应用，表现出在各种不同规模的样例和不同的整数规划问题中，训练出来的深度RL代理能显著的超过人类设计的启发式方法。

Jun, 2019

运用强化学习和迁移学习的制造调度

本文针对制造业生产中派工问题，运用强化学习提出了一种新的设计方法，将车间状态表示为 2D 矩阵，设计了适用于派工目的的延迟和超时奖励函数，并采用调度策略转移方法增强模型泛化能力和节省模型训练和数据收集时间。实验结果显示该方法在总折扣奖励和平均延迟、超时方面表现最佳。

Oct, 2019

学习调度作业车间问题：利用图神经网络和强化学习进行表示和策略学习

本研究提出一种基于图神经网络和强化学习的框架来解决工厂作业车间调度问题，该框架将调度问题表示成了状态图，并使用GNN进行表示学习和策略学习，最终使用PPO算法对模型进行优化。实验结果表明，该模型优于传统的调度规则和基于强化学习的调度器，并且可以学习到一种具有泛化能力的调度策略。

Jun, 2021

ScheduleNet: 用强化学习解决多智能体排班问题

提出了一种基于强化学习的实时调度器ScheduleNet，它可以解决各种类型的多智能体调度问题，其中包括多销售员旅行问题（mTSP）和作业车间调度问题（JSP），并且采用类型感知图注意力（TGA）提取节点嵌入以计算任务分配概率。

Jun, 2021

多智能体灵活排程问题的强化学习方法

本研究使用强化学习方法，提出了适用于自动生产中的调度问题的解决方案：使用OpenAI gym环境和启发式引导Q-Learning算法，成功地解决了多智能体柔性车间问题，并在该领域取得了最优解。

Oct, 2022

基于深度强化学习的作业车间调度：一种序列到序列方法

通过自动学习调度规则，本文提出了一种原创的端到端深度强化学习方法来解决作业调度的 NP-难度问题，该技术受到自然语言编码器-解码器模型的启发，可在最小干预下用于处理其他不同的优化作业调度任务。研究结果表明，我们在利用优先调度规则方面超过了许多传统方法，并且在最先进的深度强化学习方法中取得了有竞争力的结果。

Aug, 2023

深度强化学习在机器调度中的应用方法、现状和未来方向

深度强化学习(DRL)在机器调度问题中的方法和应用进行了全面的综述和比较，发现DRL方法在计算速度和生成接近全局最优解方面表现优于其他方法，但面临着处理复杂操作约束、多目标优化、泛化性、可扩展性、解释性和鲁棒性等限制，解决这些挑战将是未来研究中的关键焦点。该论文为研究人员评估当前DRL机器调度领域的现状以及发现研究空白提供了宝贵的资源，同时也帮助专家和从业者选择适合生产调度的DRL方法。

Oct, 2023

小批次有利可图？探究批次大小对基于强化学习的实际生产调度的影响

通过使用强化学习算法解决实际生产线上的排产问题，本研究探讨了产品批次大小对解决方案质量和强化学习算法的训练动态的影响，并提出了两种新的课程学习策略，为小批量训练提供支持。这些研究结果可应用于与排产问题类似的多个工业场景。

Jun, 2024

通过可解释人工智能揭示生产调度中的强化学习

本研究旨在解决深度强化学习（DRL）在生产调度中应用时解释不明的问题。通过引入一种基于假设的工作流程，我们系统地利用两种可解释人工智能框架来验证和调整DRL代理的调度决策解释，以更好地适应领域知识和目标受众。该方法的主要发现是，它强调了对解释的重复验证过程，可能在多种以DRL为基础的调度应用中具有重要影响。

Aug, 2024

家具行业作业车间调度优化：考虑机器设置、批次变异和内部物流的强化学习方法

本研究解决了家具行业作业车间调度问题（JSSP），针对传统模型未能充分考虑机器设置时间和批次大小变异的缺陷，提出了一种结合深度强化学习的调度模型。该模型能够提高调度准确性和效率，促进生产流程的实时调整，从而应对复杂制造环境中的变化和不确定性。

Sep, 2024