Mar, 2024

大规模环境下全局决策中高效强化学习的应用

TL;DR研究探讨了在存在许多本地代理的全局决策制定中的强化学习问题,旨在通过学习一种最大化全局和本地代理奖励的策略来解决可扩展性挑战。提出了 SUB-SAMPLE-Q 算法,该算法通过对局部代理进行子采样来计算最优策略,其时间复杂度仅在 k 方面呈指数增长,相较于标准方法能够提供指数级的加速。研究结果表明,学习到的策略在子采样代理数量 k 增加时会趋近于最优策略,并且收敛的顺序为 O (1/√k + εk,m),其中 εk,m 为贝尔曼噪声。同时进行了需求响应和排队模拟实验。