基于强化学习的分组光网络路由与混合遥测

Jun, 2024

基于强化学习的分组光网络路由与混合遥测

Reinforcement-Learning based routing for packet-optical networks with hybrid telemetry

A. L. García Navarro, Nataliia Koneva, Alfonso Sánchez-Macián, José Alberto Hernández, Óscar González de Dios...

TL;DR这篇论文提供了一种方法和开源实现，用于在包光网络场景中寻找最佳路径的强化学习算法。该算法利用物理层（前 FEC 误码率和传播延迟）和链路层（链路负载）提供的测量结果，配置基于延迟的奖励和惩罚集，然后基于这些测量结果执行 Q 学习，找到最佳的路由策略。进一步证明该算法通过根据链路负载变化或以前 FEC 误码率衡量的链路退化重新计算最佳策略，动态适应不断变化的网络条件。

Abstract

This article provides a methodology and open-source implementation of reinforcement learning algorithms for finding optimal routes in a packet-op

reinforcement learning optimal routes packet-optical network q-learning network conditions

发现论文，激发创造

基于图注意力多智能体强化学习的分组路由

本文提出了一种基于强化学习（RL）的无模型和数据驱动路径选择策略，结合图神经网络（GNN）的多智能体 RL 框架，探索了中央化，联合和合作学习三种部署范式，模拟结果表明该算法在分组传输延迟和负载方面优于一些现有的基准算法。

Jul, 2021

软件定义网络路由优化深度强化学习方法

本文设计和评估了一个深度强化学习代理，该代理优化路由并自动适应当前交通条件，提出量身定制的配置以尝试最小化网络延迟，实验表现出极具潜力的性能与相较于传统优化算法的重要操作优势。

Sep, 2017

复杂网络中的拥塞控制新型强化学习路由算法

使用强化学习的路由算法能够控制拥塞和优化路径长度，从而提高网络吞吐量，有效地应用于复杂网络中各种流量场景和拓扑结构，并在实验中显示出最大节点拥塞减少 5 倍、效率提高 30% 的结果。

Dec, 2023

物理层路由和频谱访问的可扩展深度强化学习

本文提出了一种可扩展的强化学习方法，用于同时路由和频谱访问无线自组网中的信号传输，根据邻居节点的地理位置信息智能地制定联合路由和频谱分配决策。

Dec, 2020

异构网络中使用增强学习的分散隐蔽路由

利用强化学习算法实现的隐蔽路由策略在异构网络中传输机密数据，通过中继节点选择最优传输方式实现源节点到目标节点的通信，与最优集中式路由方案相比表现相近。

Jan, 2024

CFR-RL: SDN 中使用强化学习进行流量工程

本文通过 CFRRRL 方法，采用强化学习技术，自动学习选择每个给定流量矩阵的关键流的策略，通过解决一个简单的线性规划问题来重新路由这些选择的关键流，以平衡网络的链路利用率。

Apr, 2020

使用强化学习寻找有效的量子比特路由策略，以便在近期量子计算机部署中使用

本文提出了量子计算机中量子比特路由问题的强化学习解决方案，解决此问题的方法是通过将传统的强化学习框架改进，允许离散动作空间，并证明了该方法的优越性，其具有普遍意义。

Dec, 2018

下一代网络中自适应交通路由的深度增强学习方法

我们研究并开发了一种深度强化学习（DRL）方法，用于自适应流量路由，该方法利用深度图卷积神经网络（DGCNN）在 DRL 框架中学习流量行为，并通过 Q 值估计选择路由路径，实现对流量动态的快速适应。与 OSPF 协议相比，实验结果表明了该框架的有效性和适应性，在增加网络吞吐量高达 7.8% 和减少 16.1% 的流量延迟方面取得了显著效果。

Feb, 2024

ReinWiFi: WiFi 网络应用层 QoS 优化的基于强化学习的框架

提出并实现了一种基于强化学习的调度框架，用于优化受到未知干扰影响的实际无线局域网（WLAN）的应用层服务质量（QoS）。通过调整争用窗口大小和应用层吞吐量限制，联合调度具有文件传递和对延迟敏感通信的应用层任务，如屏幕投射，以优化它们的 QoS，包括文件传递的吞吐量和对延迟敏感通信的往返时间。

May, 2024

综合接入回传网络的多智能体强化学习网络路由

本研究主要探讨无线路由方案的优化，特别关注于集成接入回程（IAB）网络，旨在通过采取多智能体强化学习和马尔可夫决策过程等方法，最大化分组到达比率同时最小化网络延迟，并提升网络效率。在本研究中，我们提出了一种称为关系型优势演员评论家（Relational A2C）的算法，并对其进行了三种不同的训练范式。研究结果表明，相较于其他强化学习算法，该算法具有更好的性能和更低的个体自私行为，为 IAB 网络的路由策略优化提供了新的思路。

May, 2023