无线网络中针对 URLLC 流量的风险敏感强化学习

Nov, 2018

无线网络中针对 URLLC 流量的风险敏感强化学习

Risk-Sensitive Reinforcement Learning for URLLC Traffic in Wireless Networks

Nesrine Ben-Khalifa, Mohamad Assaad, Mérouane Debbah

TL;DR本研究针对多用户多信道无线网络中 URLLC 流动态信道分配问题，利用有穷时间马尔科夫决策过程框架，提出了一种新的基于风险加权的目标函数，利用值迭代算法和 Q-learning 算法分别求解了完美控制和不知晓 CSI 和信道参数时的最优策略，实验验证了算法的有效性。

Abstract

In this paper, we study the problem of dynamic channel allocation for URLLC traffic in a multi-user multi-channel wireless network where urgent packets have to be successfully transmitted in a timely manner. We f

dynamic channel allocation urllc traffic multi-user multi-channel wireless network markov decision process q-learning

发现论文，激发创造

无线网络中动态多通道接入的深度强化学习

研究多通道接入的问题，应用深度 Q 网络实现对于未知系统动态的自适应学习，以最大化长期回报，通过仿真与实际数据跟踪比较表明该方法在更为复杂的情境下具有最佳性能。

Feb, 2018

基于机器学习的低延迟高可靠通信风险感知资源分配的挑战与策略

通过机器学习技术在 5G 无线网络中实现非计划 URLLC 流量传输的研究，提出了一种分布式风险感知机器学习解决方案，从而可以实现计划或非计划 URLLC 流量的同时满足其严格的延迟和可靠性要求。

Dec, 2018

在 URLLC 启用的车载网络中使用包络更新的广义多目标强化学习

我们开发了一种新的多目标强化学习（MORL）框架，以在传统的次 6GHz 频谱和太赫兹频率上运行的多频段车联网中共同优化无线网络选择和自主驾驶策略。该框架旨在通过控制车辆的运动动态（即速度和加速度）来最大化交通流量，最小化碰撞，并增强超可靠、低延迟的通信，同时最小化切换。我们将该问题视为多目标马尔科夫决策过程（MOMDP）并为冲突目标的预设和未知偏好开发解决方案。具体地，我们首先开发了基于深度 Q 网络和双深度 Q 网络的解决方案，通过使用预设偏好对运输和通信奖励进行标量化处理。然后，我们开发了一种新颖的信封 MORL 解决方案，该解决方案能够为代理器处理具有未知偏好的多目标提出策略。虽然这种方法减少了对标量奖励的依赖，但在不同的偏好下策略的有效性仍然是一个挑战。为了解决这个问题，我们应用了一种广义版本的贝尔曼方程，并优化多目标 Q 值的凸包来学习一个统一的参数表示，能够在所有可能的偏好配置下生成最优策略。在初始学习阶段之后，我们的代理器可以根据任何指定的偏好执行最优策略，或者从最少的数据样本中推断出偏好。数值结果验证了基于信封的 MORL 解决方案的有效性，并展示了车辆运动动态、切换和通信数据速率之间的相关性的有趣见解。所提出的策略使自动驾驶车辆能够采用安全驾驶行为，并具有改善的连接性。

May, 2024

无线边缘多媒体流媒体结构化强化学习

通过使用学习型策略来确定在视频流媒体环境中哪些客户端应该动态优先考虑，以提升用户体验和增加 30% 的 QoE，并使用低计算复杂度的结构化策略进行快速学习。

Apr, 2024

最优传输辅助的风险敏感 Q-Learning

通过将最优输运理论融入 Q-learning 框架，本文提出一种风险敏感的 Q-learning 算法来增强智能体的安全性，以期在优化策略的期望回报的同时，最小化策略的稳态分布与预先定义的风险分布之间的 Wasserstein 距离，从而减少访问危险状态的频率并比传统的 Q-learning 算法更快地趋于稳定的策略。

Jun, 2024

风险敏感强化学习应用于约束条件控制

本文研究带错误状态的马尔可夫决策过程，并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务，实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。

Sep, 2011

ReinWiFi: WiFi 网络应用层 QoS 优化的基于强化学习的框架

提出并实现了一种基于强化学习的调度框架，用于优化受到未知干扰影响的实际无线局域网（WLAN）的应用层服务质量（QoS）。通过调整争用窗口大小和应用层吞吐量限制，联合调度具有文件传递和对延迟敏感通信的应用层任务，如屏幕投射，以优化它们的 QoS，包括文件传递的吞吐量和对延迟敏感通信的往返时间。

May, 2024

具有分位风险标准的风险受限强化学习

本文研究利用概率风险约束的马尔可夫决策过程，通过计算梯度并设计算法实现了局部最优策略，解决了累积成本最小化的顺序决策问题，例子包括最优停止问题和在线营销应用。

Dec, 2015

无线网络中基于学习的调度，以提升信息准确性和新鲜度

通过模拟比较四种标准赌博算法，同时结合分析性保证，我们对多源系统中的调度问题进行了研究，并对任何策略能够达到的累计遗憾下限进行了界定。

Oct, 2023

学习未知统计量的非静态无线网络调度

对于具有部分可观察和时变动力学的大规模无线网络，本文研究了一种面向广义干扰约束的无线网络的高效调度算法，其中平均到达率和平均服务率是未知的和非平稳的。我们提出了一种新颖的算法 MW-UCB 用于广义无线网络调度，它基于最大权重策略，并利用滑动窗口上限置信界来学习通道在非平稳情况下的统计特性。在平均服务率的可变性方面满足较弱的假设条件下，MW-UCB 在吞吐量上是最优的。具体而言，只要平均服务率在任何时间段内的总变化量在时间上增长的次线性，我们表明 MW-UCB 可以实现稳定区域任意靠近拥有完全通道统计信息的策略类的稳定区域。大量模拟验证了我们的理论结果，并展示了 MW-UCB 的良好性能。

Aug, 2023