子图站点硬件 - 软件推断协同设计

Jun, 2023

子图站点硬件 - 软件推断协同设计

Subgraph Stationary Hardware-Software Inference Co-Design

Payman Behnam, Jianming Tong, Alind Khare, Yangyu Chen, Yue Pan...

TL;DR该研究论文提出了一种基于权重共享超网络机制的子图固定（SGS）优化方法，通过在动态环境下提供流式查询，实现了机器学习的更好的预测精度和更短的响应时间。

Abstract

A growing number of applications depend on machine learning (ML) functionality and benefits from both higher quality ML predictions and better timeliness (latency) at the same time. A growing body of research in

machine learning latency tradeoffs inference accelerator designs sgs optimization

发现论文，激发创造

SuperServe：面向不可预知工作负载的细粒度推断服务

通过在权重共享的 SuperNetworks 中插入专门的操作符，SubNetAct 机制动态地将请求导向网络以满足延迟和准确性目标，从而同时提供覆盖延迟 - 准确性权衡空间的全范围模型服务。SuperServe 系统在 Microsoft Azure Functions 的真实工作负载和大范围的极度突发性合成负载中表现出最佳的平衡效果。

Dec, 2023

基于成本的机器学习流水线硬件软件协同优化

通过量化、成本限制平台等因素综合考虑，探讨如何在边缘平台上最优化地设计系统和部署模型，以实现广泛适用的智能设备。

Oct, 2023

SmartSAGE: 使用存储处理架构训练大规模图神经网络

本文针对大规模图神经网络 GNN 训练所需的巨大存储容量和内存限制的问题，提出了一种基于存储器的处理（ISP）架构的解决方案 SmartSAGE，使 GNN 训练系统具有高容量存储和高性能。

May, 2022

DS-Net++：用于 CNN 和 Transformers 的高效推理的动态权重切片

本文提出 DS-Net 和 DS-Net ++，两种基于动态权重分割的动态可裁剪网络。通过改变卷积神经网络 (CNNs) 或变压器 (transformers) 的滤波器数量和维度，以使其适应输入的不同难度水平，从而实现硬件有效的动态推理范式，同时保持网络参数静态和连续存储。与静态和动态模型压缩方法相比，大量实验表明，该方法具有更好的性能 (高达 6.6% 的提升)。

Sep, 2021

通过生成搜索：具有架构生成器的灵活高效的一次性 NAS

提出一种名为 SGNAS 的一次搜索神经结构的框架，使用生成器生成子网络以更加高效和灵活地进行搜索，同时还提出了一种名为统一超网络的新单路径超网络以进一步提高搜索效率和减少 GPU 内存消耗，在 ImageNet 数据集上仅用 5 个 GPU 小时完成 $N$ 个不同硬件限制下的搜索，准确率达 77.1%。

Mar, 2021

搭载 Rockpool 和 Xylo 的亚毫瓦神经形态 SNN 音频处理应用

我们利用时域不变的金字塔式突触时常的直观 SNN 架构，通过梯度下降来设计、训练和部署任意时间信号处理应用程序，并在能量受限的环境中展示了高准确性和低延迟。

Aug, 2022

SiGeo: 通过信息理论和损失函数景观的几何学实现次 - 一次神经架构搜索

通过引入 “sub-one-shot” 范式，我们介绍了一种新的神经体系结构搜索方法 SiGeo，该方法通过使用一小部分训练数据进行训练来减少计算成本，并在各种已建立的 NAS 基准测试中优于现有的 NAS 代理。

Nov, 2023

高效的基于子图的图表示学习算法与系统协同设计

SUREL 是一种可伸缩的 subgraph-based graph representation learning（SGRL）框架，通过步行分解子图来构建和重用子图，从而实现减少子图提取的冗余和支持并行计算，相较于 SGRL 基线，SUREL 达到 10 倍的加速，而预测性能相当甚至更好；而与规范的 GNN 相比，SUREL 实现了 50％的预测准确度提高。

Feb, 2022

神经加速器的硬件 / 软件学习式协同设计

本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架，可以自动识别联合设计空间中的优化点，应用于各种神经模型，改善能量延迟产品的性能。

Oct, 2020

利用 FPGA 进行符号回归用于快速机器学习推理

本篇论文提出一种利用符号回归技术和 FPGA 实现的机器学习模型优化算法，成功地将一个由 3 层神经元组成的模型大幅优化，准确率超过 90%，执行时间缩短了 13 倍。

May, 2023