应用深度强化学习解决带用户偏好装配序列规划问题

Apr, 2023

应用深度强化学习解决带用户偏好装配序列规划问题

Deep reinforcement learning applied to an assembly sequence planning problem with user preferences

Miguel Neves, Pedro Neto

TL;DR本文提出了一种采用深度强化学习方法解决装配序列规划（ASP）问题的方法，使用用户偏好和总装配时间作为奖励信号，并引入参数化行为来提高训练时间和样本效率。研究结果表明，深度强化学习与人类互动解决装配序列规划问题具有潜在的应用前景。

Abstract

deep reinforcement learning (DRL) has demonstrated its potential in solving complex manufacturing decision-making problems, especially in a context where the system learns over time with actual operation in the absence of training data. One interesting and challenging application for s

deep reinforcement learning assembly sequence planning parametric actions reward signal human interaction

发现论文，激发创造

强化学习与演示的工业装配鲁棒多模态策略：一个大规模研究

通过与基于传统工程方法的专业工业集成器的比较，研究表明基于深度强化学习的工业装配方法不仅可以超越已有的工业装配方法，还能超越人类运动系统，并且数据说明还有巨大的优化空间。

Mar, 2021

一种 Q 学习算法在制造装配问题中的应用研究

本研究利用强化学习算法在给定对象的装配问题中实现了 Q-Learning 算法，通过学习与环境的交互来推荐装配序列解决方案，并通过三个场景的探索来评估强化学习代理的性能，实现了优化装配过程时间并在 98.3% 的时间内得出最佳的装配序列解决方案。

Apr, 2023

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016

从 CAD 学习机器人装配

以制造业的最新趋势为背景，研究了自主机器人装配的问题。提出一种利用几何运动规划作为先验知识来引导强化学习的方法，以实现高精度的装配任务。同时，还提出了一种能够学习运动规划并将控制器推广到物体位置变化的神经网络架构。

Mar, 2018

深度强化学习在机器调度中的应用方法、现状和未来方向

深度强化学习 (DRL) 在机器调度问题中的方法和应用进行了全面的综述和比较，发现 DRL 方法在计算速度和生成接近全局最优解方面表现优于其他方法，但面临着处理复杂操作约束、多目标优化、泛化性、可扩展性、解释性和鲁棒性等限制，解决这些挑战将是未来研究中的关键焦点。该论文为研究人员评估当前 DRL 机器调度领域的现状以及发现研究空白提供了宝贵的资源，同时也帮助专家和从业者选择适合生产调度的 DRL 方法。

Oct, 2023

使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链

探讨了多级供应链中的生产计划和分配问题，利用深度增强学习技术 Proximal Policy Optimization（PPO2）来解决非线性不确定需求的问题，结果表明在有不确定性情况下，该方法更具优势。

Jan, 2022

DRiLLS: 深度强化学习用于逻辑综合

提出了一种基于强化学习的方法，自动化优化逻辑综合过程，通过训练 Actor Critic（A2C）智能体来实现无人工干预的设计优化，取得了较好的优化结果。

Nov, 2019

基于深度 Q 学习的模块化生产环境下的车辆管理

本文研究了在离散事件模拟环境下，使用基于 Deep-Q 的深度强化学习代理来解决模块化生产设施中的作业车间调度问题。研究发现，相比于传统启发式和成本表等方法，基于 DRL 的代理相当，并且具有更高的噪声稳健性，对于这种类型的调度问题值得尝试。

May, 2022

外汇市场多智能体异步分布的交易优化深度强化学习方法

这项研究开创性地应用了多智能体强化学习（MA RL）框架与最先进的异步优势演员 - 评论家（A3C）算法，结果表明此方法可以更广泛和更快地探索不同的货币对，显著提高交易收益。此外，代理可以在较短时间内学习到更有利可图的交易策略。

May, 2024

超越训练：通过自适应动作采样优化基于强化学习的工作车间调度

利用经过训练的深度强化学习智能体进行推理的优化参数化方法，该方法通过调整训练好的行为向量，使智能体在解决方案构建过程中更好地探索或开发，进而在有限的计算预算情况下生成更多可接受的解决方案。

Jun, 2024