用于 NOMA-URLLC 网络中上行调度的深度强化学习

MMAug, 2023

用于 NOMA-URLLC 网络中上行调度的深度强化学习

Deep Reinforcement Learning for Uplink Scheduling in NOMA-URLLC Networks

Benoît-Marie Robaglia, Marceau Coupechoux, Dimitrios Tsilimantos

TL;DR通过提出一种名为 NOMA-PPO 的新型深度强化学习调度算法，本文解决了无线网络中超可靠低延迟通信（URLLC）的问题，也就是在物联网（IoT）应用中施加的严格约束。该方法通过将 NOMA-URLLC 问题转化为部分可观察马尔可夫决策过程（POMDP）并引入一种代理状态，成功将 POMDP 转化为马尔可夫决策过程（MDP），并且适应了组合动作空间，同时还利用贝叶斯策略技术融合了先前的知识，结果表明该方法不仅在 3GPP 场景中优于传统的多路访问协议和 DRL 基准，而且在各种信道和流量配置下都能有效地利用时间相关性，显示出鲁棒的性能。

Abstract

This article addresses the problem of Ultra Reliable Low Latency Communications (URLLC) in wireless networks, a framework with particularly stringent constraints imposed by many Internet of Things (IoT) applications from diverse sectors. We propose a novel deep reinforcement learning (

ultra reliable low latency communications deep reinforcement learning non-orthogonal multiple access partially observable markov decision process proximal policy optimization

发现论文，激发创造

上行 NOMA-IoT 网络资源分配：一种强化学习方法

本文针对非正交多址技术中的公平资源分配问题，基于强化学习提出了一种高效的资源分配方案，结合深度强化学习算法和 SARSA-learning 算法处理不同网络负载下的差异性问题，并通过数值实验得出在物联网中，非正交多址技术可以比正交多址技术更好地提高系统的吞吐量。

Jul, 2020

深度强化学习的毫米波非正交多址下行系统联合功率分配和波束成形器

该研究使用深度强化学习方法，对毫米波条件下的非正交多址接入进行了功率分配和波束成形的优化，以达到用户总速率最大化，并在模拟结果中表现出较其他方法更佳的效果。

May, 2022

毫米波非正交多址通信中的深度强化学习：联合功率分配和混合波束成形

本论文介绍了使用深度强化学习和控制理论方法 (DRL) 实现毫米波非正交多址接入 (NOMA) 系统的联合功率分配和混合波束成形，通过考虑用户之间的相互干扰并同时满足高速率需求，模拟结果表明该方法比时分复用多址 (TDMA) 和非线视距 (NLOS)-NOMA 方法在用户总速率方面效果更好，且该方法独立于信道响应。

May, 2022

基于优化理论的深度强化学习用于超可靠无线网络控制系统资源分配

基于优化理论的深度强化学习框架被介绍用于联合设计控制和通信系统，并针对最小化功耗目标，在满足通信系统的调度性和速率约束以及控制系统的稳定性约束的前提下，通过优化理论和深度强化学习两个阶段的组合来实现，该方法在大量的模拟实验中表现出优于优化理论和纯深度强化学习方法的性能，接近最优性能且复杂度较低。

Nov, 2023

基于分层强化学习的低时延高可靠通信编排

应用多智能体分层强化学习框架，优化无线资源分配，在 5G 的超可靠低延迟通信服务中实现更好的性能并减少信号传输和延迟开销，特别适用于工厂自动化场景。

Jul, 2023

在 URLLC 启用的车载网络中使用包络更新的广义多目标强化学习

我们开发了一种新的多目标强化学习（MORL）框架，以在传统的次 6GHz 频谱和太赫兹频率上运行的多频段车联网中共同优化无线网络选择和自主驾驶策略。该框架旨在通过控制车辆的运动动态（即速度和加速度）来最大化交通流量，最小化碰撞，并增强超可靠、低延迟的通信，同时最小化切换。我们将该问题视为多目标马尔科夫决策过程（MOMDP）并为冲突目标的预设和未知偏好开发解决方案。具体地，我们首先开发了基于深度 Q 网络和双深度 Q 网络的解决方案，通过使用预设偏好对运输和通信奖励进行标量化处理。然后，我们开发了一种新颖的信封 MORL 解决方案，该解决方案能够为代理器处理具有未知偏好的多目标提出策略。虽然这种方法减少了对标量奖励的依赖，但在不同的偏好下策略的有效性仍然是一个挑战。为了解决这个问题，我们应用了一种广义版本的贝尔曼方程，并优化多目标 Q 值的凸包来学习一个统一的参数表示，能够在所有可能的偏好配置下生成最优策略。在初始学习阶段之后，我们的代理器可以根据任何指定的偏好执行最优策略，或者从最少的数据样本中推断出偏好。数值结果验证了基于信封的 MORL 解决方案的有效性，并展示了车辆运动动态、切换和通信数据速率之间的相关性的有趣见解。所提出的策略使自动驾驶车辆能够采用安全驾驶行为，并具有改善的连接性。

May, 2024

MC-NOMA 的联合资源管理：一种深度强化学习方法

本文提出了基于深度强化学习的联合资源管理方法来应对多载波非正交多址系统中的硬件敏感性和不完美连续干扰消除，包括对子载波赋值和功率分配两个迭代子任务的决策过程。经过广泛实验验证，该方法在系统吞吐量和抗干扰能力方面较现有替代方案更加优越，并可以灵活满足用户的个性化服务要求。

Mar, 2021

异构无线网络的深度强化学习多路访问

本文研究了深度强化学习在异构无线网络的 MAC 协议中的应用，通过观察环境、采取行动和获得回报，DLMA 节点可以学习一种最优的 MAC 策略，以实现多个时隙网络的协调共存。

Dec, 2017

基于 RIS 的 EH-NOMA 网络：一种深度强化学习方法

该论文提出一种基于能量收集的可重构智能表面帮助非正交多用户下行通信系统提高谱效率的新方法，使用深度学习算法解决由于用户通信状态的动态变化和可利用能源的动态变化影响的非凸问题，获得了比其他基准算法更好的通信成功率表现。

Apr, 2023

使用在线竞争力和学习的 NOMA 在 5G 网络及其它领域中的大规模物联网接入

本文研究了超出 5G 基于蜂窝的物联网网络中在线用户分组、调度和功率分配的问题。采用非正交多址接入方法来容纳多个设备在相同的无线电资源块中。作者提出了高效的在线竞争算法，并演示了如何在强化学习设置中使用这些在线算法并组合它们的解来获得功能强大的动力分配和全局解决方案。

Feb, 2020