Sep, 2024

可微分的离散事件模拟用于排队网络控制

TL;DR本研究解决了排队网络控制面临的高随机性和大状态空间等挑战,提出了一种基于可微分离散事件模拟的可扩展政策优化框架。通过实施精心设计的平滑技术,研究表明该方法在大规模排队网络中可以显著提高样本效率,达到比现有强化学习方法高出50-1000倍的表现。