在大规模无线网络中利用数字双胞胎进行合奏式 Q 学习

Feb, 2024

在大规模无线网络中利用数字双胞胎进行合奏式 Q 学习

Leveraging Digital Cousins for Ensemble Q-Learning in Large-Scale Wireless Networks

Talha Bozkus, Urbashi Mitra

TL;DR通过新颖的合奏 Q-learning 算法，针对优化无线网络的性能和复杂性挑战，通过合成马尔可夫决策过程的集成学习，提出了适应大状态空间可观测无线网络的新模型，通过在多个合成马尔可夫环境上并行运行多个 Q-learning 算法并将其输出融合成单一的 Q 函数，达到平均策略误差减少多达 50%，运行时复杂性减少多达 40% 的目标。

Abstract

Optimizing large-scale wireless networks, including optimal resource management, power allocation, and throughput maximization, is inherently challenging due to their non-observable system dynamics and heterogeneous and complex nature. Herein, a novel ensemble →

wireless networks q-learning ensemble learning resource management reinforcement learning

发现论文，激发创造

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

无线网络中动态功率分配的多智能体深度强化学习

本文提出了一种分布式执行的动态功率分配方案，基于无模型深度强化学习技术，通过收集 CSI 和服务质量（QoS）信息，每个发射机适应自己的发射功率，旨在最大化加权和速效用函数，可特化为实现最大总速率或比例公平调度。本方案特别适用于系统模型不精确，CSI 延迟不可忽略的实际场景，能够在真实时间内实现几乎最优的功率分配。

Aug, 2018

无线网络中动态多通道接入的深度强化学习

研究多通道接入的问题，应用深度 Q 网络实现对于未知系统动态的自适应学习，以最大化长期回报，通过仿真与实际数据跟踪比较表明该方法在更为复杂的情境下具有最佳性能。

Feb, 2018

分布式和非协同认知无线电资源分配的深度强化学习

本文提出了一种分布式的深度强化学习资源分配技术，针对协作无线电网络所呈现的多智能体环境及其强化学习过程中可能导致的非平稳环境，通过考虑深度强化学习的特定方面，本文的算法能够迭代地收敛于一个平衡政策，其可用于无需与其他代理协调配合的情况下工作。仿真结果表明，与等效的基于 Q 表的 Q 学习算法相比，所提出的技术具有更快的学习性能，并能够在足够长的学习时间内在 99% 的情况下找到最优策略。此外，对于与等效的基于表格的实现相比，仿真结果显示出我们的 DQL 方法只需要不到一半的学习步骤才能实现相同的性能。此外，证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。

May, 2022

$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

该论文研究了一类多智能体马尔可夫决策过程，在其中，网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前，论文探讨了一种分布式强化学习设置，并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏（可能随机）通信网络上的局部处理和信息交流，实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下，提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式，这些技术对独立的利益具有重要意义。

Apr, 2012

使用图形 Q 网络的多智能体强化学习在天线调谐中的应用

该论文提出了一种新的多智能体强化学习算法，使用图神经网络结构进行全局优化移动网络配置，实现对移动网络的优化。

Jan, 2023

学习在随机动态环境中持续优化无线资源

本文提出了一种在动态环境中实现数据驱动方法持续学习和优化的方法，通过将持续学习（CL）概念融入到无线系统学习的建模过程中，使学习模型不断适应新的情境，同时不忘记从前几次情境中学习的知识，并针对两种流行的基于深度神经网络的模型进行定制。数值结果表明，所提出的 CL 方法不仅能够迅速而无缝地适应新场景，而且在先前遇到的场景中保持高性能。

Nov, 2020

机器学习增强的无人机反射表面轨迹与无源波束成形设计

提出一种新的框架，通过在无人机网中部署 RIS 进行服务质量的提升，采用非正交多址技术进一步提高网络的频谱效率，设计深度 Q - 网络算法来解决能源消耗最小化问题。

Oct, 2020

车联网中的非正交年龄最优信息传播：一个基于元多目标强化学习的方法

本文研究了在车辆网络中如何通过最小化信息时代和发送功率消耗来提供及时更新，采用非正交多模式信息传播方法，利用混合深度 Q 网络和深度确定性策略梯度模型解决多目标优化问题，并提出了一个两阶段元多目标强化学习解决方案来估计 Pareto 前沿。

Feb, 2024

数字孪生辅助数据驱动的无线网络边缘缓存可靠性优化

为了优化下一代无线网络中的边缘缓存，确保移动用户的高速低延迟服务，本研究引入了一种新颖的数字孪生辅助优化框架 D-REC，它将强化学习与多样化干预模块相结合，以确保可靠的缓存存储，并最小化网络故障的风险。实验结果表明，D-REC 在缓存命中率和负载平衡方面优于传统方法，同时有效地执行预定的可靠性干预模块。

Jun, 2024