MMSep, 2021

多智能体深度强化学习(MADRL)遇见多用户 MIMO 系统

TL;DR本文提出了一种 MADRL 的方法,即采用 MA-DDPG 框架,在有多个决策制定者并且这些决策制定者只能观测到部分环境信息,且存在多维度动作空间的情况下,在多输入单输出干扰信道系统中联合优化预编码器,来实现可实现速率区域的边界,同时提出了一种解决相位歧义问题的训练方法(PAE),模拟结果表明这种方法在 MISO IFC 系统中可以学习到近乎最优的预编码策略,并且这是第一篇在多个蜂窝、多用户、多天线系统中证明 MA-DDPG 框架可以联合优化预编码器以达到可实现速率区域的边界的研究。