基于符号化精简的 TCP 学习型拥塞控制技术

Oct, 2022

基于符号化精简的 TCP 学习型拥塞控制技术

Symbolic Distillation for Learned TCP Congestion Control

S P Sharan, Wenqing Zheng, Kuo-Feng Hsu, Jiarong Xing, Ang Chen...

TL;DR本文提出一种基于深度强化学习的深度神经网络模型，在模型训练完成后对模型参数进行压缩，转换成可解释且能够适用于不同网络环境的符号表达式，并提供了一种新的符号分支算法，验证了该方法在模拟和仿真环境中能够保留和提高性能。

Abstract

Recent advances in tcp congestion control (CC) have achieved tremendous success with deep reinforcement learning (RL) approaches, which use feedforward →

tcp congestion control deep reinforcement learning neural networks symbolic expressions network conditions

发现论文，激发创造

通过深度符号回归实现闭式拥塞控制

该论文提出了一种使用强化学习和深度符号回归来处理 5G 时代中超低时延和高吞吐场景下拥塞控制问题的方法。通过训练一个专门针对类似前传网络的拥塞控制策略，并采集基准策略的状态 - 动作经验，使用深度符号回归方法处理实时推理的挑战，从而实现基准策略的性能和泛化能力。该方法能够近似基准性能（链路利用率、延迟和公平性）并可以直接在任何编程语言中实现，并对闭合形式表达式的内部工作进行了分析。

Mar, 2024

在 NVIDIA 网络接口卡中实现强化学习的数据中心拥塞控制

使用强化学习算法，将复杂的神经网络转化为决策树的形式，从而实现计算器能力有限的网络设备上的实时拥塞控制，与生产中使用的拥塞控制算法相比具有更好的性能。

Jul, 2022

深度强化学习在互联网拥塞控制中的应用

该研究利用深度强化学习（RL）算法解决互联网拥塞控制问题，成果表明该 RL 指导拥塞控制方法在数据流量和网络环境的复杂模式识别方面性能卓越但也需要解决公平性、安全性、泛化问题。此外，研究提出基于 OpenAI Gym 接口的测试套件，以促进对该方法的进一步研究和可重复性。

Oct, 2018

一阶逻辑中的神经符号强化学习

为了在文本角色扮演游戏中实现快速收敛和可解释的知识表示，我们提出了一种新的基于逻辑神经网络的强化学习方法，该方法可以从文本观察中提取一阶逻辑事实并使用逻辑算子训练策略，实验结果表明该方法比其他基于神经元符号框架的方法更快收敛。

Oct, 2021

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

将深度强化学习模型提炼成可解释的神经 - 模糊系统

本文提出了一种使用深度强化学习中的策略来压缩神经模糊控制器的算法，该方法通过蒸馏将深度神经网络里的模型精华提取并转化成较小的规则库，可以在保持灵活性的同时，提升模型的可解释性。作者在 OpenAI Gym 上进行了测试，取得与深度强化学习相当的表现，但只需 2 至 6 条模糊规则。

Sep, 2022

动态网络航行学习：用于战术环境拥塞控制的 MARLIN 强化学习框架

本研究提出了一种利用 RL 框架来优化战术网络拥塞控制的方法，并使用 MARLIN 智能体在依托于精确的仿真环境下训练，在模拟的卫星通信和 UHF 无线电链路之间测试其性能，结果表明 MARLIN 在战术网络环境下优于传统的 TCP Cubic 和默认的 Mockets 解决方案，这突出了在优化战术网络 CC 中使用专门的 RL 方案的有效性。

Jun, 2023

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

MLTCP: 深度神经网络训练的拥塞控制

我们提出了 MLTCP 技术，通过将竞争网络带宽的作业的通信阶段相互交错，以有效利用网络，从而增加共享 GPU 集群中的深度神经网络训练作业的速度。在 MLTCP 的核心是一个基于关键概念洞察的非常简单的原则：DNN 训练流应基于每个训练迭代发送的字节数来调整其拥塞窗口大小。通过向 Reno、CUBIC 或 DCQCN 添加 30-60 行代码，我们证明了将这一原则集成到现有的拥塞控制协议中是直接的：不论竞争流的数量或每个流的开始时间如何，MLTCP 将不同作业的流稳定到一个交错状态只需要几个训练迭代。我们对流行的 DNN 训练作业进行的实验证明，启用 MLTCP 将平均和第 99 百分位数的训练迭代时间分别加速了 2 倍和 4 倍。

Feb, 2024

解释性机器人行走的蒸馏强化学习策略：梯度提升机和符号回归

通过采用梯度提升机、可解释性提升机和符号回归的方法，将神经强化学习策略转化为透明的 “玻璃盒” 模型，用于提高控制策略的可解释性以及数据集聚合算法在行为克隆中的应用。

Mar, 2024