Nov, 2023

深度强化学习的多时间尺度控制和通信 - 第二部分: 控制感知的无线资源分配

TL;DR我们将多时间尺度控制和通信 (MTCC) 问题分解为基于深度强化学习 (DRL) 的车队控制 (PC) 子问题和基于 DRL 的无线资源分配 (RRA) 子问题,并提出了用于学习最优 PC 策略的 MTCC-PC 算法和用于学习 RRA 策略的 MTCC-RRA 算法。我们采用奖励塑形和奖励反向传播优先经验回放 (RBPER) 技巧来高效地解决多智能体和稀疏奖励问题,并提出了一种样本和计算高效的训练方法来共同学习 PC 和 RRA 策略。通过使用真实驾驶数据进行实验,将 MTCC 的性能与基准 DRL 算法进行了比较,验证了所提出的 MTCC 算法的有效性。