sPIN:网络中的高性能流处理
Spin 是一种 GPU 加速的多方计算 (MPC) 框架,支持多个计算方和一个不诚实的多数敌对设置。该框架提出了针对非线性函数的优化协议,以及用于注意力的几种新颖优化,允许 Spin 在不牺牲安全性的情况下执行复杂的 CNN 训练和 Transformer 推断。综合评估表明,Spin 在深度神经网络训练方面比现有技术快 2 倍。对于一个具有 1890 万参数的 Transformer 模型的推断,Spin 的注意力特定优化可实现更好的效率、更少的通信和更高的准确性。
Feb, 2024
本文提出了 SPINN 系统,利用分布式计算和渐进推理方法共同实现设备云协同计算,并引入了一种新的调度程序,通过合理设置早期退出策略和 CNN 分割,以适应动态条件和满足用户定义的服务水平要求,以达到快速和强大的 CNN 推理。定量评估表明,在不同网络条件下,SPINN 的吞吐量高达其最先进的协作推理对手的 2 倍,将服务器成本降低了多达 6.8 倍,并在延迟限制下提高精度 20.7%,同时在不确定的连接条件下提供稳健操作和与云为中心的执行相比显著的节能。
Aug, 2020
介绍了一种半参数感知网络 (SPIN) 的模型,该模型可以在推理时计算,使用了感应点方法中数据点的交互机制,可以支持元学习中的大区域数据,并取得了 state-of-the-art 的性能表现。
May, 2022
SPINN 集成树形结构的句子解释和移位规约分析器的线性序列结构中,支持大规模 NLP 任务的批量计算,并且在 Stanford NLI 蕴含任务中表现优异。
Mar, 2016
本研究通过对数据访问和计算模式的分析,以深度优化算法和硬件,提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。
May, 2022
通过在分布式本地内存上使用稀疏和循环模型训练方法,我们观察到与 GPU 相比,使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益,且在训练收敛或最终模型性能上没有明显减慢。
Nov, 2023
大规模数据集上的机器学习(ML)训练是一项非常昂贵和耗时的工作负载,处理器中心化体系结构(例如,CPU,GPU)常用于现代 ML 训练工作负载,但受制于数据移动瓶颈,即不断访问训练数据集。因此,处理器中心化系统面临着性能下降和高能耗的问题。内存中处理(PIM)是缓解数据移动瓶颈的有希望的解决方案,将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明,现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案,当 PIM 硬件本地支持操作和数据类型时。此外,仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言,当节点数增加时,与常见观点相反,现代 PIM 架构不能实现线性扩展。为了促进未来的研究,我们打算开源我们的完整代码库。
Apr, 2024
现代机器学习应用越来越复杂,单芯片加速器架构无法满足其能效和吞吐量要求。本文介绍了如何利用光通信和计算在 2.5D 平台上实现能效高、吞吐量大的 2.5D 机器学习加速器架构。
Mar, 2024