分布式和非协同认知无线电资源分配的深度强化学习

MMMay, 2022

分布式和非协同认知无线电资源分配的深度强化学习

Deep Reinforcement Learning for Distributed and Uncoordinated Cognitive Radios Resource Allocation

Ankita Tondwalkar, Andres Kwasinski

TL;DR本文提出了一种分布式的深度强化学习资源分配技术，针对协作无线电网络所呈现的多智能体环境及其强化学习过程中可能导致的非平稳环境，通过考虑深度强化学习的特定方面，本文的算法能够迭代地收敛于一个平衡政策，其可用于无需与其他代理协调配合的情况下工作。仿真结果表明，与等效的基于 Q 表的 Q 学习算法相比，所提出的技术具有更快的学习性能，并能够在足够长的学习时间内在 99% 的情况下找到最优策略。此外，对于与等效的基于表格的实现相比，仿真结果显示出我们的 DQL 方法只需要不到一半的学习步骤才能实现相同的性能。此外，证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

Abstract

This paper presents a novel deep reinforcement learning-based resource allocation technique for the multi-agent environment presented by a cognitive radio network where the interactions of the agents during learn

deep reinforcement learning resource allocation multi-agent environment cognitive radio network non-stationary environment

发现论文，激发创造

分布式非协调认知无线电资源分配的深度强化学习

本文提出了一种基于深度强化学习的分布式资源分配技术，用于多代理环境下的认知无线电网络，该网络通过干扰下动态频谱访问与主干网络共存。该技术是分布式的，且不需要与其他代理协调，通过模拟结果可以显示出，该技术能够在有限的学习时间内，找到使性能在 3％之内的策略。

Oct, 2019

多智能体学习调度：一种分布式无线资源管理框架

提出了一种使用多智能体深度强化学习的机制来管理无线电资源，从而在最大化用户吞吐量和保证公平分配资源之间取得平衡。

Jun, 2019

基于多智能体深度强化学习的无线网络资源管理

本文提出了使用多智能体深度强化学习机制的分布式资源管理和干扰抑制方案。该框架通过使智能体作出决策，从而解决了干扰和资源分配的问题。模拟结果表明，这种方法具有比分散式基线更高的性能，在与集中式信息论基线相媲美的同时，模型的鲁棒性得到了验证。

Feb, 2020

无线网络中动态功率分配的多智能体深度强化学习

本文提出了一种分布式执行的动态功率分配方案，基于无模型深度强化学习技术，通过收集 CSI 和服务质量（QoS）信息，每个发射机适应自己的发射功率，旨在最大化加权和速效用函数，可特化为实现最大总速率或比例公平调度。本方案特别适用于系统模型不精确，CSI 延迟不可忽略的实际场景，能够在真实时间内实现几乎最优的功率分配。

Aug, 2018

多业务网络中基于 QoS 限制的资源分配的深度强化学习

本文旨在研究一种利用强化学习算法在无线多业务系统中处理无线电资源分配问题的方法，通过在本地环境中与局部互动来寻找策略，实现了关于 9LTE 系统满足保证和 QoS 约束的无线资源分配。此外，通过计算模拟，本文与文献中的最新解决方案进行比较，并展示了后者在吞吐量和故障率方面近乎最优的性能。

Mar, 2020

一个用于多小区网络下行功率分配的深度 Q 学习方法

本文提出了一种基于深度强化学习的下行功率分配方案，旨在最大化总网络吞吐量，该方案与传统的功率分配方案相比表现更好，在多小区场景中，通过深度 Q 学习方法实现近似最优功率分配策略，使用遗传算法作为基准来获得近似最优功率分配解。

Apr, 2019

拥挤频谱环境下雷达检测和跟踪的深度强化学习控制

本文采用深度强化学习（Deep RL）中的非线性价值函数逼近来实现智能脉冲雷达和相邻通信系统的动态非合作共存，并通过学习调整频率和中心频率，最大化雷达探测性能，保持对频带的充分利用。我们通过实验证明，与策略迭代或感知和避免（SAA）方法相比，基于 Deep Q-Learning（DQL）算法的方法更有效地提高雷达的重要性能度量，包括 SINR 和带宽利用率，同时维持良好的距离分辨率。我们还将 DQL 方法扩展到包括 Double Q-Learning 和递归神经网络，形成 Double Deep Recurrent Q-Network（DDRQN）。最后，我们用软件定义雷达（SDRadar）原型系统的实验结果证明了本文提出的深度强化学习方法在拥挤频谱环境下显著提高了雷达探测性能。

Jun, 2020

多用户蜂窝网络的功率分配：深度强化学习方法

本文研究了基于深度强化学习的无模型无需解析解的动力控制方案在跨单元合作、离线 / 在线集中训练和分布式执行等方面的数学分析和具体实现。分析和仿真结果表明，DRL 设计在性能、鲁棒性和广泛可用性方面优于基于模型的方法，特别是 actor-critic 深度确定性策略梯度算法，可用于现有资源分配方案。

Jan, 2019

针对 5G 不同服务质量需求的无线资源分配的深度学习

本文提出了一种基于深度学习的资源分配策略，通过优化带宽和传输功率来最小化基站的总功耗，并使用级联结构的神经网络和深度迁移学习来应对无线网络中的非平稳性。实验结果表明，相对于全连接神经网络，在 QoS 保证方面，级联神经网络的性能更好。

Mar, 2020

基于深度强化学习的 V2V 通信资源分配

本文基于深度强化学习，开发了一种分散资源分配机制，应用于车对车（V2V）通信中，在无单播和广播场景下均可使用。根据分散的资源分配机制，一个自治体、一个 V2V 链路或一辆车，可以在不要求或等待全局信息的情况下，做出决策，查找传输的最佳子带宽和功率水平。由于所提出的方法是分散的，因此仅产生有限的传输开销。根据仿真结果，每个自治体可以有效地学习，以满足对 V2V 链路的严格延迟约束，同时将干扰降至最低。

May, 2018