Apr, 2025

基于滚动的算法和奖励函数在业务流程中高效资源分配的研究

TL;DR本研究解决了当前深度强化学习(DRL)在动态商业环境中资源分配算法的适用性问题。提出了一种创新的基于滚动的DRL算法和直接优化目标的奖励函数,通过评估不同操作的执行路径来迭代改进策略。实验结果表明,该方法在六个业务流程中始终学习到最佳策略,显著优于仅能在两个流程中学习到最佳策略的现有算法。