在 NVIDIA 网络接口卡中实现强化学习的数据中心拥塞控制

Jul, 2022

在 NVIDIA 网络接口卡中实现强化学习的数据中心拥塞控制

Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs

Benjamin Fuhrer, Yuval Shpigelman, Chen Tessler, Shie Mannor, Gal Chechik...

TL;DR使用强化学习算法，将复杂的神经网络转化为决策树的形式，从而实现计算器能力有限的网络设备上的实时拥塞控制，与生产中使用的拥塞控制算法相比具有更好的性能。

Abstract

As communication protocols evolve, datacenter network utilization increases. As a result, congestion is more frequent, causing higher latency and packet loss. Combined with the increasing complexity of workloads, manual design of →

congestion control reinforcement learning datacenter networks neural networks communication protocols

发现论文，激发创造

深度强化学习在互联网拥塞控制中的应用

该研究利用深度强化学习（RL）算法解决互联网拥塞控制问题，成果表明该 RL 指导拥塞控制方法在数据流量和网络环境的复杂模式识别方面性能卓越但也需要解决公平性、安全性、泛化问题。此外，研究提出基于 OpenAI Gym 接口的测试套件，以促进对该方法的进一步研究和可重复性。

Oct, 2018

MACC: 基于深度强化学习的跨层多智能体拥塞控制

本研究探讨了基于多智能体强化学习的跨层拥塞控制算法的性能，证明了基于多智能体深度强化学习的网络协议对通信管理的有效性，同时证明了网络领域可以用作机器学习算法的新游戏场。

Jun, 2022

GraphCC：数据中心拥塞控制的实用图学习方法

使用机器学习的新方法 GraphCC 来优化数据中心网络中的拥塞控制，通过多智能体强化学习和图神经网络来优化全局拥塞控制配置，与基于 ECN 的拥塞控制协议兼容，并在各种情景下展示了较高的性能。

Aug, 2023

复杂网络中的拥塞控制新型强化学习路由算法

使用强化学习的路由算法能够控制拥塞和优化路径长度，从而提高网络吞吐量，有效地应用于复杂网络中各种流量场景和拓扑结构，并在实验中显示出最大节点拥塞减少 5 倍、效率提高 30% 的结果。

Dec, 2023

基于符号化精简的 TCP 学习型拥塞控制技术

本文提出一种基于深度强化学习的深度神经网络模型，在模型训练完成后对模型参数进行压缩，转换成可解释且能够适用于不同网络环境的符号表达式，并提供了一种新的符号分支算法，验证了该方法在模拟和仿真环境中能够保留和提高性能。

Oct, 2022

通过深度符号回归实现闭式拥塞控制

该论文提出了一种使用强化学习和深度符号回归来处理 5G 时代中超低时延和高吞吐场景下拥塞控制问题的方法。通过训练一个专门针对类似前传网络的拥塞控制策略，并采集基准策略的状态 - 动作经验，使用深度符号回归方法处理实时推理的挑战，从而实现基准策略的性能和泛化能力。该方法能够近似基准性能（链路利用率、延迟和公平性）并可以直接在任何编程语言中实现，并对闭合形式表达式的内部工作进行了分析。

Mar, 2024

网络争用感知的集群调度策略与强化学习

通过使用强化学习，我们提出了一种新的方法，在 GPU 集群中减轻网络争用，以提高调度决策的效率，从而减少作业完成时间并降低资源利用率。

Oct, 2023

基于 Soft Actor-Critic 的强化学习在真实网络的拥塞控制中的应用

研究提出了一种基于最大熵强化学习算法的拥塞控制解决方案 (MARLIN)，该方法使用软 Actor-Critic 算法并将学习过程建模为一个无限时间任务，经过实验测试，MARLIN 可以在文件传输任务中取得与 TCP Cubic 可比较的结果。

Feb, 2023

MLTCP: 深度神经网络训练的拥塞控制

我们提出了 MLTCP 技术，通过将竞争网络带宽的作业的通信阶段相互交错，以有效利用网络，从而增加共享 GPU 集群中的深度神经网络训练作业的速度。在 MLTCP 的核心是一个基于关键概念洞察的非常简单的原则：DNN 训练流应基于每个训练迭代发送的字节数来调整其拥塞窗口大小。通过向 Reno、CUBIC 或 DCQCN 添加 30-60 行代码，我们证明了将这一原则集成到现有的拥塞控制协议中是直接的：不论竞争流的数量或每个流的开始时间如何，MLTCP 将不同作业的流稳定到一个交错状态只需要几个训练迭代。我们对流行的 DNN 训练作业进行的实验证明，启用 MLTCP 将平均和第 99 百分位数的训练迭代时间分别加速了 2 倍和 4 倍。

Feb, 2024

基于深度强化学习和图神经网络的光可组合数据中心网络感知计算和内存分配

采用深度强化学习方法，通过图神经网络模型实现网络资源的分配，该方法比现有的最佳启发式算法达到更高的接受率；即使在未适当训练的情况下，可以在规模比训练时大 $10^2$ 倍的数据中心网络中保持高性能。

Oct, 2022