Apr, 2023

应用深度强化学习解决带用户偏好装配序列规划问题

TL;DR本文提出了一种采用深度强化学习方法解决装配序列规划(ASP)问题的方法,使用用户偏好和总装配时间作为奖励信号,并引入参数化行为来提高训练时间和样本效率。研究结果表明,深度强化学习与人类互动解决装配序列规划问题具有潜在的应用前景。