Feb, 2019
利用网络内聚合扩展分布式机器学习
Scaling Distributed Machine Learning with In-Network Aggregation
Amedeo Sapio, Marco Canini, Chen-Yu Ho, Jacob Nelson, Panos Kalnis...
TL;DRSwitchML 是一种通信基元,通过使用可编程交换机数据平面执行培训过程的关键步骤,从而将来自多个网络工作人员的模型更新聚合,与终端主机协议和 ML 框架共同设计以提供高效解决方案,最多可将培训速度加速 5.5 倍。