sPIN：网络中的高性能流处理

Sep, 2017

sPIN: High-performance streaming Processing in the Network

Torsten Hoefler, Salvatore Di Girolamo, Konstantin Taranov, Ryan E. Grant, Ron Brightwell

TL;DR我们开发了一种便携式编程模型 sPIN，用于将简单数据包处理功能卸载到网络卡中并加速通信，进而优化大规模计算中的通信性能并提高应用程序执行速度。

Abstract

Optimizing communication performance is imperative for large-scale computing because communication overheads limit the strong scalability of parallel applications. Today's network cards contain rather powerful processors optimized for data movement. However, these devices are limited t

communication performance parallel applications spin network acceleration system services

发现论文，激发创造

Spin: 一种高效的带 GPU 加速的安全计算框架

Spin 是一种 GPU 加速的多方计算 (MPC) 框架，支持多个计算方和一个不诚实的多数敌对设置。该框架提出了针对非线性函数的优化协议，以及用于注意力的几种新颖优化，允许 Spin 在不牺牲安全性的情况下执行复杂的 CNN 训练和 Transformer 推断。综合评估表明，Spin 在深度神经网络训练方面比现有技术快 2 倍。对于一个具有 1890 万参数的 Transformer 模型的推断，Spin 的注意力特定优化可实现更好的效率、更少的通信和更高的准确性。

Feb, 2024

SPINN: 设备和云上神经网络的协同渐进推理

本文提出了 SPINN 系统，利用分布式计算和渐进推理方法共同实现设备云协同计算，并引入了一种新的调度程序，通过合理设置早期退出策略和 CNN 分割，以适应动态条件和满足用户定义的服务水平要求，以达到快速和强大的 CNN 推理。定量评估表明，在不同网络条件下，SPINN 的吞吐量高达其最先进的协作推理对手的 2 倍，将服务器成本降低了多达 6.8 倍，并在延迟限制下提高精度 20.7％，同时在不确定的连接条件下提供稳健操作和与云为中心的执行相比显著的节能。

Aug, 2020

半参数感知点网络和神经过程

介绍了一种半参数感知网络 (SPIN) 的模型，该模型可以在推理时计算，使用了感应点方法中数据点的交互机制，可以支持元学习中的大区域数据，并取得了 state-of-the-art 的性能表现。

May, 2022

用于自旋模型的可微编程框架

本文提出了一种基于可微编程的新的旋转系统建模框架，可高效地模拟旋转系统，适用于包括 GPU 和 TPU 在内的不同硬件架构，有效提高了建模效率。

Apr, 2023

一种快速的句法分析和句子理解统一模型

SPINN 集成树形结构的句子解释和移位规约分析器的线性序列结构中，支持大规模 NLP 任务的批量计算，并且在 Stanford NLI 蕴含任务中表现优异。

Mar, 2016

现代数据密集型应用的异构数据中心架构：机器学习和数据库的案例研究

本研究通过对数据访问和计算模式的分析，以深度优化算法和硬件，提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。

May, 2022

优化流水线计算和通信，以满足边缘学习的延迟约束

研究了在有通信限制的边缘设备训练机器学习模型时，数据传输的最佳方法，分析了偏差和方差之间的平衡，并使用数值结果验证了优化的有效性。

Jun, 2019

利用分布式内存驱动多核处理器加速稀疏和循环模型的训练

通过在分布式本地内存上使用稀疏和循环模型训练方法，我们观察到与 GPU 相比，使用 MIMD 处理器 (Intelligence Processing Unit) 的稀疏激活张量在训练负载上实现了 5-10 倍的吞吐量增益，且在训练收敛或最终模型性能上没有明显减慢。

Nov, 2023

分析基于真实处理内存系统的分布式优化算法

大规模数据集上的机器学习（ML）训练是一项非常昂贵和耗时的工作负载，处理器中心化体系结构（例如，CPU，GPU）常用于现代 ML 训练工作负载，但受制于数据移动瓶颈，即不断访问训练数据集。因此，处理器中心化系统面临着性能下降和高能耗的问题。内存中处理（PIM）是缓解数据移动瓶颈的有希望的解决方案，将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明，现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案，当 PIM 硬件本地支持操作和数据类型时。此外，仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言，当节点数增加时，与常见观点相反，现代 PIM 架构不能实现线性扩展。为了促进未来的研究，我们打算开源我们的完整代码库。

Apr, 2024

克服规模扩展机器学习硬件加速器中的通信瓶颈的硅光 2.5D 互联网

现代机器学习应用越来越复杂，单芯片加速器架构无法满足其能效和吞吐量要求。本文介绍了如何利用光通信和计算在 2.5D 平台上实现能效高、吞吐量大的 2.5D 机器学习加速器架构。

Mar, 2024