Sep, 2023

SPIRT:一种容错可靠的对等服务无服务器的机器学习训练架构

TL;DR服务无服务器计算为分布式机器学习带来了显著的进展,特别是在基于参数服务器的体系结构中。然而,在点对点(P2P)分布式网络中整合服务器特性仍然是一个未被开发的领域。本文介绍了 SPIRT,一个容错、可靠、安全的无服务器 P2P 机器学习训练架构,旨在填补现有差距。SPIRT 利用 P2P 系统天然的韧性和可靠性,在数据库操作中使用 RedisAI,从而大幅度降低了模型更新和梯度平均所需的时间,在多种模型和批次大小上都取得了 82% 的降低。该架构展示了对节点故障的容错能力,并熟练地管理了新节点的整合,从而突出了其容错特性和可扩展性。此外,SPIRT 确保节点之间的安全通信,增强了分布式机器学习任务的可靠性。即使面对拜占庭攻击,系统的强大聚合算法仍然保持高水平的准确性。这些发现揭示了无服务器架构在 P2P 分布式机器学习中的巨大潜力,为开发更高效、可扩展和具有韧性的应用程序迈出了重要的步伐。