边缘可持续 AI 处理
本研究通过对数据访问和计算模式的分析,以深度优化算法和硬件,提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。
May, 2022
研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案,考察 PIM 架构对机器学习算法训练的潜力,通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比,表现出更高效的处理机制和更好的加速效果。
Jul, 2022
大规模数据集上的机器学习(ML)训练是一项非常昂贵和耗时的工作负载,处理器中心化体系结构(例如,CPU,GPU)常用于现代 ML 训练工作负载,但受制于数据移动瓶颈,即不断访问训练数据集。因此,处理器中心化系统面临着性能下降和高能耗的问题。内存中处理(PIM)是缓解数据移动瓶颈的有希望的解决方案,将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明,现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案,当 PIM 硬件本地支持操作和数据类型时。此外,仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言,当节点数增加时,与常见观点相反,现代 PIM 架构不能实现线性扩展。为了促进未来的研究,我们打算开源我们的完整代码库。
Apr, 2024
本文研究了公开宣布具有性能和功耗数字的多核处理器和加速器的现状,发现其中一些趋势,包括功耗、数字精度以及推理与训练等方面的趋势,并选择并测试了两个低尺寸、重量和功率的商用加速器的实际表现,将其与报道的性能和功耗数值进行比较,并将其与嵌入式应用程序中使用的 Intel CPU 进行评估。
Aug, 2019
基于赛道存储器 (RTM) 实现的关联处理器 (APs) 和三值权重神经网络的算法优化结合的新型编译流路,可显著提高 ResNet-18 在 ImageNet 上的能效,同时保持软件准确性。
Jan, 2024
本文提供了一种将预先训练的深度神经网络 (DNNs) 转换成脉冲神经网络 (SNNs) 的通用指南,并介绍了一些在神经形态硬件上部署转换后的 SNNs 的技术,可显著改进其延迟,功耗和能耗。实验结果表明,与 Intel Neural Compute Stick 2 相比,使用我们的 SNN 改进技术, Intel 的神经形态处理器 Loihi 在测试的图像分类任务中功耗降低了最多 27 倍,能耗降低了最多 5 倍。
Oct, 2022
图神经网络(GNNs)是分析图结构数据的新兴机器学习模型。本研究提出了一个高效的 ML 框架 PyGim,通过在实际的 PIM 系统中加速 GNNs,解决了 GNNs 中内存密集型核心所面临的数据移动瓶颈。通过提供混合 GNN 执行,我们证明 PyGim 在比特尔至强 CPU 上的性能平均提升了 3.04 倍,并实现了比 CPU 和 GPU 系统更高的资源利用率。该研究为软件、系统和硬件设计者提供了有价值的建议,并将开源 PyGim 以推动 PIM 系统在 GNNs 中的广泛应用。
Feb, 2024
采用硬件意识神经架构搜索,设计了一类适用于 Edge TPU 的计算机视觉模型,有效提升了实时图像分类性能并在像素 4 的边缘 TPU 上改善了精度 - 延迟权衡。
Mar, 2020