- 将机器学习模型锁定到硬件中
通过限制模型在特定硬件上的使用,防止未经授权的模型使用,本文研究了机器学习特定机制的可行性,展示了锁定机制的可行性,并证明锁定具有可忽略的工作和延迟开销,同时显著限制了在未授权硬件上使用模型的可行性。
- 超越随机输入:一种基于机器学习的硬件模糊测试
现代计算系统在硬件作为信任根基上依赖较重。然而,不断增加的复杂性导致了跨层攻击可以利用的安全关键弱点。我们提出了一种新颖的基于 ML 的硬件模糊测试工具 ChatFuzz,它利用类似 ChatGPT 的 LLMs 来理解处理器语言,并通过代 - 线性线性模型中的准确分块量化
基于低精度 BFP 格式的通道重排方法在保证模型准确性的前提下,使内存占用减少 2 倍,且对推理延迟没有影响。
- 在 Transformer 中重用 Softmax 硬件单元进行 GELU 计算
通过将 GELU 计算映射到 softmax 运算符,本文提出了一种在硬件中重新利用预设计的 softmax 硬件单元来计算 GELU 的方法,实验结果证明这种方法不会减少代表性自然语言处理应用的准确性,并且可以平均降低 6.1% 的硬件面 - 巨大的幻觉:软件可移植性的神话及其对机器学习进展的影响
主流机器学习软件框架的可移植性研究表明,在不同硬件类型间转移框架会导致超过 40% 关键功能丧失且性能严重下降,这揭示了硬件专业化对机器学习研究创新的阻碍。
- PillarAcc:边缘设备上用于实时点云 3D 物体检测的稀疏 PointPillars 加速器
本研究提出了一种具有开创性的算法硬件协同设计,利用 PointPillars 编码的稀疏性加速 3D 目标检测网络的处理,达到了极高的节能与速度。
- 训练神经网络以在近似硬件上执行
研究表明,近似计算方法在深度学习中具有巨大潜力,尤其适用于受电源预算限制的便携设备的推理任务,但由于缺乏针对近似计算的训练方法,其潜力尚未得到充分发挥。本文提出了近似硬件训练的方法,并演示了这些方法如何专门针对近似硬件进行训练,并提出了加速 - OpenPodcar:自动驾驶研究开源车辆
OpenPodcar 是一款基于开源硬件和软件的低成本自主车辆研究平台,该平台提供了硬件和软件构建说明来将基础单车转换成一个低成本且全自动的平台,并可用于各种交通领域的研究。
- 使用 JAX pjit 和 TPUv4 的可扩展语言模型训练
本文探讨了开发可扩展培训框架所涉及的挑战和设计决策,并介绍了采用新的软件和硬件解决方案带来的效率改进的定量分析。
- 低温神经形态硬件
本文综述了低温神经形态计算硬件的现状,包括分类、性能指标和应用等方面,并提出了解决当前挑战的思路。
- 神经机器翻译系统的生态足迹
本文主要讨论神经机器翻译系统的生态足迹,包括对各种硬件的消耗比较以及量化技术在降低能源消耗方面的应用。
- 高效深度学习:关于使深度学习模型更小、更快、更好的调查
介绍了深度学习效率问题和五个核心领域,包括建模技术、基础设施和硬件,并提出实验指南和代码,为实践者优化模型培训和部署提供支持。这是第一个详尽的调查,涵盖了从建模技术到硬件支持的模型效率领域,帮助实践者实现改进并装备他们以进行进一步的研究和实 - 计算图神经网络:从算法到加速器的综述
该研究论文通过对 GNNs 的计算效率进行探讨,提供了该领域的回顾,包括对 GNN 的基本概念的简短教程以及不同算法变体的多个阶段中进行的操作的总结;同时,提供了对当前软件和硬件加速方案的深入分析,并提出了一个面向硬件和软件的、图形感知和通 - 硬件彩票
本文介绍了 “硬件彩票” 的概念,因为某些研究方向适合现有的软件和硬件而获胜,而不是因为这些研究方向本身优秀,指出领域专用硬件的出现使得离开主流研究方向的代价越来越高,快车道上的特定研究方向的进展加速,而其他研究方向的进展更加受阻。
- MM基于云的人脸和语音识别门禁应用
本文介绍了一种基于人脸图像和语音识别技术的门禁系统,用于识别员工和访客。该系统通过人脸识别解锁入口门禁,通过语音识别服务为访客提供服务,并在硬件上使用两个 Raspberry Pi 和 Amazon Web Services 和 Googl - 规模化流水线反向传播:无批量训练大型模型
本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入 Spike Compensation 和 Linear Weight Prediction 两种方法,它有效地减轻了由 Pipelined Bac - MLPerf 推理基准测试
这篇文章介绍了通过制定一套标准的机器学习基准测试和评估准则来评估以不同结构构建的机器学习硬件和软件系统的性能,以解决各种机器学习结构的评估所面临的挑战。
- 基于随机计算的二值神经网络硬件实现
提出了基于随机计算的 Binarized Neural Networks,其输入也进行了二值化,仿真实验表明这样的网络在 Fashion-MNIST 和 CIFAR-10 数据集上可以接近常规的 Binarized Neural Netwo - MLSys: 机器学习系统的新前沿
介绍 ML 系统在实际部署中的难点,并提出在传统系统和 ML 领域交叉的新兴研究方向:ML 系统的硬件和软件实现以及针对预测精度之外的指标进行的 ML 优化,同时介绍了一个新的会议 MLSys。
- 机器人、虚拟现实和增强现实的实时定位和建图技术原理概览
该论文描述了如何支持应用专家在选择和配置适当的算法和适当的硬件编译路径,在 SLAM(同时定位和制图)应用中实现算法交付的工具和方法,包括系统定量评估 SLAM 算法的工具和方法,自动化的机器学习指导算法和实现设计空间的探索,以及用于优化异