分布式非协调认知无线电资源分配的深度强化学习

MMOct, 2019

分布式非协调认知无线电资源分配的深度强化学习

Deep Reinforcement Learning for Distributed Uncoordinated Cognitive Radios Resource Allocation

Ankita Tondwalkar, Dr Andres Kwasinski

TL;DR本文提出了一种基于深度强化学习的分布式资源分配技术，用于多代理环境下的认知无线电网络，该网络通过干扰下动态频谱访问与主干网络共存。该技术是分布式的，且不需要与其他代理协调，通过模拟结果可以显示出，该技术能够在有限的学习时间内，找到使性能在 3％之内的策略。

Abstract

This paper presents a novel deep reinforcement learning-based resource allocation technique for the multi-agent environment presented by a cognitive radio network that coexists through underlay →

deep reinforcement learning resource allocation multi-agent environment cognitive radio network dynamic spectrum access

发现论文，激发创造

分布式和非协同认知无线电资源分配的深度强化学习

本文提出了一种分布式的深度强化学习资源分配技术，针对协作无线电网络所呈现的多智能体环境及其强化学习过程中可能导致的非平稳环境，通过考虑深度强化学习的特定方面，本文的算法能够迭代地收敛于一个平衡政策，其可用于无需与其他代理协调配合的情况下工作。仿真结果表明，与等效的基于 Q 表的 Q 学习算法相比，所提出的技术具有更快的学习性能，并能够在足够长的学习时间内在 99% 的情况下找到最优策略。此外，对于与等效的基于表格的实现相比，仿真结果显示出我们的 DQL 方法只需要不到一半的学习步骤才能实现相同的性能。此外，证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

May, 2022

多智能体学习调度：一种分布式无线资源管理框架

提出了一种使用多智能体深度强化学习的机制来管理无线电资源，从而在最大化用户吞吐量和保证公平分配资源之间取得平衡。

Jun, 2019

基于多智能体深度强化学习的无线网络资源管理

本文提出了使用多智能体深度强化学习机制的分布式资源管理和干扰抑制方案。该框架通过使智能体作出决策，从而解决了干扰和资源分配的问题。模拟结果表明，这种方法具有比分散式基线更高的性能，在与集中式信息论基线相媲美的同时，模型的鲁棒性得到了验证。

Feb, 2020

无线网络中动态功率分配的多智能体深度强化学习

本文提出了一种分布式执行的动态功率分配方案，基于无模型深度强化学习技术，通过收集 CSI 和服务质量（QoS）信息，每个发射机适应自己的发射功率，旨在最大化加权和速效用函数，可特化为实现最大总速率或比例公平调度。本方案特别适用于系统模型不精确，CSI 延迟不可忽略的实际场景，能够在真实时间内实现几乎最优的功率分配。

Aug, 2018

多业务网络中基于 QoS 限制的资源分配的深度强化学习

本文旨在研究一种利用强化学习算法在无线多业务系统中处理无线电资源分配问题的方法，通过在本地环境中与局部互动来寻找策略，实现了关于 9LTE 系统满足保证和 QoS 约束的无线资源分配。此外，通过计算模拟，本文与文献中的最新解决方案进行比较，并展示了后者在吞吐量和故障率方面近乎最优的性能。

Mar, 2020

基于深度强化学习的 V2V 通信资源分配

本文基于深度强化学习，开发了一种分散资源分配机制，应用于车对车（V2V）通信中，在无单播和广播场景下均可使用。根据分散的资源分配机制，一个自治体、一个 V2V 链路或一辆车，可以在不要求或等待全局信息的情况下，做出决策，查找传输的最佳子带宽和功率水平。由于所提出的方法是分散的，因此仅产生有限的传输开销。根据仿真结果，每个自治体可以有效地学习，以满足对 V2V 链路的严格延迟约束，同时将干扰降至最低。

May, 2018

深度强化学习在蜂窝网络中联合频谱和功率分配中的应用

本文提出了一个学习框架来优化无线网络的频谱和功率分配，使用两种分别针对离散和连续变量的强化学习算法来同时执行和训练，模拟结果表明该方案优于基于分数规划的算法和以往基于深度强化学习的解决方案。

Dec, 2020

低水平无线通信的协作多智体强化学习

本研究使用强化学习方法，将两个设备间的无线通信建模为优化双向通信策略的问题，以此解决传统无线通信领域所面临的问题，如人工频谱稀缺、无法动态分配频率等。实验结果表明所提出的方法具有优越的学习能力和智能性。

Jan, 2018

V2V 通信资源分配的深度强化学习

本文提出了一种基于深度强化学习的分散式资源分配机制，以优化车对车通信系统的信道和功率分配，同时减小对车对基础设施通信系统的干扰。

Nov, 2017

拥挤频谱环境下雷达检测和跟踪的深度强化学习控制

本文采用深度强化学习（Deep RL）中的非线性价值函数逼近来实现智能脉冲雷达和相邻通信系统的动态非合作共存，并通过学习调整频率和中心频率，最大化雷达探测性能，保持对频带的充分利用。我们通过实验证明，与策略迭代或感知和避免（SAA）方法相比，基于 Deep Q-Learning（DQL）算法的方法更有效地提高雷达的重要性能度量，包括 SINR 和带宽利用率，同时维持良好的距离分辨率。我们还将 DQL 方法扩展到包括 Double Q-Learning 和递归神经网络，形成 Double Deep Recurrent Q-Network（DDRQN）。最后，我们用软件定义雷达（SDRadar）原型系统的实验结果证明了本文提出的深度强化学习方法在拥挤频谱环境下显著提高了雷达探测性能。

Jun, 2020