运用强化学习和迁移学习的制造调度

KDDOct, 2019

运用强化学习和迁移学习的制造调度

Manufacturing Dispatching using Reinforcement and Transfer Learning

Shuai Zheng, Chetan Gupta, Susumu Serita

TL;DR本文针对制造业生产中派工问题，运用强化学习提出了一种新的设计方法，将车间状态表示为 2D 矩阵，设计了适用于派工目的的延迟和超时奖励函数，并采用调度策略转移方法增强模型泛化能力和节省模型训练和数据收集时间。实验结果显示该方法在总折扣奖励和平均延迟、超时方面表现最佳。

Abstract

Efficient dispatching rule in manufacturing industry is key to ensure product on-time delivery and minimum past-due and inventory cost. manufactu

dispatching manufacturing reinforcement learning shop floor settings policy transfer

发现论文，激发创造

野外强化学习：在打车市场部署的可扩展的强化学习调度算法

本研究提出了一种基于强化学习的实时调度算法，采用了新型的时间差异价值更新方法，并引入了自适应图剪枝策略，实现了 A/B 测试下司机收入总量提升超过 1.3％和全面部署后主要性能指标提升达到 5.3％的显著性能提升。

Feb, 2022

订单调度中的模式迁移强化学习

本研究提出了一种基于价值传输学习和纵向一致性惩罚的算法框架，来解决实时预定派单系统中需求 - 供给关系的非同态性问题，实验结果表明，该算法优于传统价值传导学习方法。

May, 2021

用于强化学习纳入工业应用的模块化测试平台

探索使用强化学习技术来提高制造业生产效率的潜力，以一个模型工厂为例，通过预设规则运输和组装货物，并将蓝色产品送到出口，绿色产品则运往存储。

Jun, 2023

使用软防护的安全强化学习对分布式灵活装配线进行调度

研究了基于 Actor-Critic 强化学习方法的自动化装配线调度问题，提出了一种更简洁的环境表示方法，并引入基于 Monte-Carlo 树搜索的软屏蔽组件来改善调度过程中的不安全行为和风险监控。

Nov, 2023

基于深度强化学习的作业车间调度：一种序列到序列方法

通过自动学习调度规则，本文提出了一种原创的端到端深度强化学习方法来解决作业调度的 NP - 难度问题，该技术受到自然语言编码器 - 解码器模型的启发，可在最小干预下用于处理其他不同的优化作业调度任务。研究结果表明，我们在利用优先调度规则方面超过了许多传统方法，并且在最先进的深度强化学习方法中取得了有竞争力的结果。

Aug, 2023

使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链

探讨了多级供应链中的生产计划和分配问题，利用深度增强学习技术 Proximal Policy Optimization（PPO2）来解决非线性不确定需求的问题，结果表明在有不确定性情况下，该方法更具优势。

Jan, 2022

接触丰富操作中的强化学习知识迁移

本文介绍了一种基于多个技能先验的强化学习方法，通过学习每个任务所需技能的先验分布，并将任务的相似性与先前的任务进行比较，以指导在新任务上学习策略，从而更好地推广到训练中从未遇到的新任务。

Sep, 2022

通过深度强化学习学习调度，以进行车间调度

本文提出利用端到端的深度强化学习代理自动学习优先调度规则 (Priority dispatching rule) 来解决实际的作业车间调度问题 (Job-shop scheduling problem)，探索应用离散图表示和基于图神经网络的方案将状态嵌入到神经网络中，从而实现了良好的泛化性能（generalization）。实验表明，学习的策略还表现出较强的性能，超越最佳现有 PDR，而且在训练时未使用的更大规模实例上表现出良好的性能。

Oct, 2020

多智能体灵活排程问题的强化学习方法

本研究使用强化学习方法，提出了适用于自动生产中的调度问题的解决方案：使用 OpenAI gym 环境和启发式引导 Q-Learning 算法，成功地解决了多智能体柔性车间问题，并在该领域取得了最优解。

Oct, 2022

应用强化学习进行机器人包装优化

本文提出了一个利用强化学习框架来优化传送带速度以最小化对系统其他部分的干扰，并使生产力、控制平滑和减少计算时间等方面有了显著提高的智能制造自动化解决方案。

Mar, 2023