Nov, 2018

无线网络中针对 URLLC 流量的风险敏感强化学习

TL;DR本研究针对多用户多信道无线网络中 URLLC 流动态信道分配问题,利用有穷时间马尔科夫决策过程框架,提出了一种新的基于风险加权的目标函数,利用值迭代算法和 Q-learning 算法分别求解了完美控制和不知晓 CSI 和信道参数时的最优策略,实验验证了算法的有效性。