MMAug, 2023

用于 NOMA-URLLC 网络中上行调度的深度强化学习

TL;DR通过提出一种名为 NOMA-PPO 的新型深度强化学习调度算法,本文解决了无线网络中超可靠低延迟通信(URLLC)的问题,也就是在物联网(IoT)应用中施加的严格约束。该方法通过将 NOMA-URLLC 问题转化为部分可观察马尔可夫决策过程(POMDP)并引入一种代理状态,成功将 POMDP 转化为马尔可夫决策过程(MDP),并且适应了组合动作空间,同时还利用贝叶斯策略技术融合了先前的知识,结果表明该方法不仅在 3GPP 场景中优于传统的多路访问协议和 DRL 基准,而且在各种信道和流量配置下都能有效地利用时间相关性,显示出鲁棒的性能。