MMMay, 2022

分布式和非协同认知无线电资源分配的深度强化学习

TL;DR本文提出了一种分布式的深度强化学习资源分配技术,针对协作无线电网络所呈现的多智能体环境及其强化学习过程中可能导致的非平稳环境,通过考虑深度强化学习的特定方面,本文的算法能够迭代地收敛于一个平衡政策,其可用于无需与其他代理协调配合的情况下工作。仿真结果表明,与等效的基于 Q 表的 Q 学习算法相比,所提出的技术具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。此外,对于与等效的基于表格的实现相比,仿真结果显示出我们的 DQL 方法只需要不到一半的学习步骤才能实现相同的性能。此外,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。