深度强化学习在互联网拥塞控制中的应用

ICMLOct, 2018

深度强化学习在互联网拥塞控制中的应用

Internet Congestion Control via Deep Reinforcement Learning

Nathan Jay, Noga H. Rotman, P. Brighten Godfrey, Michael Schapira, Aviv Tamar

TL;DR该研究利用深度强化学习（RL）算法解决互联网拥塞控制问题，成果表明该 RL 指导拥塞控制方法在数据流量和网络环境的复杂模式识别方面性能卓越但也需要解决公平性、安全性、泛化问题。此外，研究提出基于 OpenAI Gym 接口的测试套件，以促进对该方法的进一步研究和可重复性。

Abstract

We present and investigate a novel and timely application domain for deep reinforcement learning (RL): internet congestion control. Congestion control is the core networking task of modulating traffic sources' data-transmission rates to efficiently utilize →

deep reinforcement learning internet congestion control traffic modulation network capacity rl-guided congestion control

发现论文，激发创造

通过深度符号回归实现闭式拥塞控制

该论文提出了一种使用强化学习和深度符号回归来处理 5G 时代中超低时延和高吞吐场景下拥塞控制问题的方法。通过训练一个专门针对类似前传网络的拥塞控制策略，并采集基准策略的状态 - 动作经验，使用深度符号回归方法处理实时推理的挑战，从而实现基准策略的性能和泛化能力。该方法能够近似基准性能（链路利用率、延迟和公平性）并可以直接在任何编程语言中实现，并对闭合形式表达式的内部工作进行了分析。

Mar, 2024

在 NVIDIA 网络接口卡中实现强化学习的数据中心拥塞控制

使用强化学习算法，将复杂的神经网络转化为决策树的形式，从而实现计算器能力有限的网络设备上的实时拥塞控制，与生产中使用的拥塞控制算法相比具有更好的性能。

Jul, 2022

复杂网络中的拥塞控制新型强化学习路由算法

使用强化学习的路由算法能够控制拥塞和优化路径长度，从而提高网络吞吐量，有效地应用于复杂网络中各种流量场景和拓扑结构，并在实验中显示出最大节点拥塞减少 5 倍、效率提高 30% 的结果。

Dec, 2023

深度强化学习在极端拥堵期间最大化动脉使用率

本研究提出了一种基于深度强化学习的控制器来帮助减少道路拥堵现象，该控制器通过学习适应性绕道策略，从而优化使用高速公路车道及其附近的交通网络，本文使用实际交通数据生成参数化交通模型并在模拟器中进行实验，结果显示该方法可以将交通速度提高 21％。

May, 2023

面向交通信号控制的鲁棒深度强化学习：需求激增、事故和传感器故障

本论文详细研究采用深度强化学习（RL）算法解决交通拥堵问题，并开发了一个开源框架以评估这些算法在不同的交通模拟环境下的表现。通过考虑一系列外生不确定因素，如需求激增、容量减少和传感器故障等。我们得出了深度强化学习算法在交通控制领域的关键见解，并提出了具体的设计以减轻这些考虑过的外生不确定因素对系统的影响。

Apr, 2019

MACC: 基于深度强化学习的跨层多智能体拥塞控制

本研究探讨了基于多智能体强化学习的跨层拥塞控制算法的性能，证明了基于多智能体深度强化学习的网络协议对通信管理的有效性，同时证明了网络领域可以用作机器学习算法的新游戏场。

Jun, 2022

深度强化学习在通信和网络中的应用：综述

本文为关于深度强化学习在通信和网络方面应用的全面文献综述，着重介绍如何利用强化学习和深度学习来解决如动态网络接入、数据速率控制、无线缓存等问题并实现 5G 及以后的下一代网络的优化。

Oct, 2018

强化学习的红绿灯控制

本研究提出一种实时交通信号灯控制方法，使用深度 Q 学习，并结合奖励函数，考虑排队长度、延迟、旅行时间和吞吐量，通过根据当前交通状况动态决定相位变化。通过使用合成和实际交通流数据在中国杭州的一个路口进行验证，结果表明与传统的固定信号计划相比，该方法显著改善了车辆等待时间（57.1% 至 100%）、排队长度（40.9% 至 100%）和总行程时间（16.8% 至 68.0%）。

Aug, 2023

下一代网络中自适应交通路由的深度增强学习方法

我们研究并开发了一种深度强化学习（DRL）方法，用于自适应流量路由，该方法利用深度图卷积神经网络（DGCNN）在 DRL 框架中学习流量行为，并通过 Q 值估计选择路由路径，实现对流量动态的快速适应。与 OSPF 协议相比，实验结果表明了该框架的有效性和适应性，在增加网络吞吐量高达 7.8% 和减少 16.1% 的流量延迟方面取得了显著效果。

Feb, 2024

使用深度强化学习代理控制交通信号

提出了一种交通信号控制系统，利用现代深度强化学习方法构建适应性交通信号控制器，通过对作为输入的交通密集信息进行 Q-learning 训练并使用经验回放，与一种单隐藏层神经网络通讯信号控制器相比，实现了平均累计延迟减少 82％，平均队列长度减少 66％，平均旅行时间减少 20％。

Nov, 2016