超越训练：通过自适应动作采样优化基于强化学习的工作车间调度

Jun, 2024

超越训练：通过自适应动作采样优化基于强化学习的工作车间调度

Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling

Constantin Waubert de Puiseau, Christian Dörpelkus, Jannik Peters, Hasan Tercan, Tobias Meisen

TL;DR利用经过训练的深度强化学习智能体进行推理的优化参数化方法，该方法通过调整训练好的行为向量，使智能体在解决方案构建过程中更好地探索或开发，进而在有限的计算预算情况下生成更多可接受的解决方案。

Abstract

Learned construction heuristics for scheduling problems have become increasingly competitive with established solvers and heuristics in recent years. In particular, significant improvements have been observed in

construction heuristics scheduling problems deep reinforcement learning parameterization inference method

发现论文，激发创造

深度强化学习在作业车间调度中的搜索应用

本文提出了一种基于图神经网络的深度强化学习方法，用于解决作业车间调度问题中的改进启发式问题，并设计了一种新颖的传递信息机制来加快解决方案评估，实验结果表明，该方法比现有的基于深度强化学习的方法在 JSSP 领域中具有更好的性能.

Nov, 2022

深度强化学习在机器调度中的应用方法、现状和未来方向

深度强化学习 (DRL) 在机器调度问题中的方法和应用进行了全面的综述和比较，发现 DRL 方法在计算速度和生成接近全局最优解方面表现优于其他方法，但面临着处理复杂操作约束、多目标优化、泛化性、可扩展性、解释性和鲁棒性等限制，解决这些挑战将是未来研究中的关键焦点。该论文为研究人员评估当前 DRL 机器调度领域的现状以及发现研究空白提供了宝贵的资源，同时也帮助专家和从业者选择适合生产调度的 DRL 方法。

Oct, 2023

一种工作车间调度的强化学习环境

本研究利用深度强化学习在 Job-Shop Scheduling 中设计了高效的 DRL 环境，使用紧密联系于 COP 方法的稀疏最小化的准则的新型简单而密集的奖励函数，相对于现有的 DRL 方法在经典基准实例上表现出更好的性能，接近先进的 COP 方法。

Apr, 2021

基于深度强化学习的作业车间调度：一种序列到序列方法

通过自动学习调度规则，本文提出了一种原创的端到端深度强化学习方法来解决作业调度的 NP - 难度问题，该技术受到自然语言编码器 - 解码器模型的启发，可在最小干预下用于处理其他不同的优化作业调度任务。研究结果表明，我们在利用优先调度规则方面超过了许多传统方法，并且在最先进的深度强化学习方法中取得了有竞争力的结果。

Aug, 2023

自适应、基于交易的多智能体系统的分散调度

该研究采用交易方法，将多智能体强化学习应用于模拟的调度环境中，研究分布式代理体系结构及自主定价在任务分配中的应用。

Jul, 2022

利用强化学习进行车间作业调度的课程学习

本研究通过引入难度变化和课程学习策略来改进深度强化学习方法，基于图嵌入实现的 DLR 方法在解决工作车间调度问题方面取得了显著的效果。

May, 2023

强化学习的模因算法用于社技生产调度

本文介绍了一种利用深度强化学习应用的模因算法，用于解决实践中的双重资源约束柔性作业车间调度问题，并提出一种用于多标准优化的并行计算混合框架。通过实践证实，该框架使用 DRL 可以产生更好的结果，并优于传统方法。

Dec, 2022

基于深度 Q 学习的模块化生产环境下的车辆管理

本文研究了在离散事件模拟环境下，使用基于 Deep-Q 的深度强化学习代理来解决模块化生产设施中的作业车间调度问题。研究发现，相比于传统启发式和成本表等方法，基于 DRL 的代理相当，并且具有更高的噪声稳健性，对于这种类型的调度问题值得尝试。

May, 2022

快照强化学习：利用先前轨迹提高效率

该论文提出了 Snapshot Reinforcement Learning (SnapshotRL) 框架，通过改变环境而不修改算法和模型来提高采样效率，实验证明将 S3RL 与 TD3、SAC 和 PPO 算法相结合可以显著提高 MuJoCo 基准测试的采样效率和平均回报。

Mar, 2024

基于注意力的强化学习在组合优化中的应用：作业车间调度问题

我们提出了一种基于注意力机制的强化学习方法来解决作业车间调度问题，通过将策略梯度强化学习与改进的 Transformer 架构相结合，我们的方法在解决大规模问题上表现优于最近的研究和广泛采用的启发式规则。

Jan, 2024