May, 2023

综合接入回传网络的多智能体强化学习网络路由

TL;DR本研究主要探讨无线路由方案的优化,特别关注于集成接入回程(IAB)网络,旨在通过采取多智能体强化学习和马尔可夫决策过程等方法,最大化分组到达比率同时最小化网络延迟,并提升网络效率。在本研究中,我们提出了一种称为关系型优势演员评论家(Relational A2C)的算法,并对其进行了三种不同的训练范式。研究结果表明,相较于其他强化学习算法,该算法具有更好的性能和更低的个体自私行为,为 IAB 网络的路由策略优化提供了新的思路。