黑曜石：在安全机器学习加速器上进行高效推断的协同状态空间探索

Sep, 2024

黑曜石：在安全机器学习加速器上进行高效推断的协同状态空间探索

Obsidian: Cooperative State-Space Exploration for Performant Inference on Secure ML Accelerators

Sarbartha Banerjee, Shijia Wei, Prakash Ramrakhyani, Mohit Tiwari

TL;DR本研究解决了在机器学习加速器的信任执行环境中，优化工作负载以提高性能和能效的挑战。通过协同使用分析模型和周期准确模型探索状态空间，Obsidian框架能够实现最佳模型映射，并且在云和边缘部署中显著降低了推断延迟和能耗，展示了其有效性和潜在影响。

Abstract

Trusted execution environments (TEEs) for Machine Learning accelerators are indispensable in secure and efficient ML inference. Optimizing workloads through State-Space Exploration for the accelerator architectur

发现论文，激发创造

Slalom：受信任硬件中神经网络的快速、可验证和私有执行

本研究探索了使用 Trusted Execution Environments（TEE）优化深度神经网络执行的问题，提出了一种名为 Slalom 的框架，用于实现基于TEE架构的有效且私密的外包计算，实验结果表明Slalom的执行性能在特定条件下有显著提升。

Jun, 2018

NASS: 通过神经结构搜索优化安全推理

本文提出了NASS框架，将加密协议建模为设计元素并与预测的超参数一起优化以找到平衡预测精度和执行效率的最佳NN架构。在实验中，使用NASS可以将预测精度从81.6％提高到84.6％，同时在CIFAR-10数据集上减少推理运行时间2倍，通信带宽减少1.9倍。

Jan, 2020

内鬼之恶：硬件特洛伊通过机器学习的后门

本文提出一种全新的硬件加速器中的后门攻击方式，并设计了一个可配置的硬件木马，其中搭载了一个最小化的后门，使得攻击者只需要对少量参数进行更改就可以对深度学习模型做出改变，从而在保证运行效率的同时完全避开了目前防御机制。通过将木马植入Vitis AI DPU进行实验，作者成功ic 证明了这种攻击的可行性与危险性，同时指出了目前硬件加速器中的深度学习模型存在的漏洞和安全问题，为以后的研究和应用提供了重要参考。

Apr, 2023

无隐私地退却：关于基于TEE保护的DNN分区在设备上机器学习中的（不）安全性

通过在设备上进行机器学习引入了新的安全挑战，研究人员提出了TEE-Shielded DNN划分的解决方案，通过将DNN模型划分为两部分并将隐私敏感的部分保护在TEE内，从而提供了与将整个DNN模型放入TEE中相同的安全保护，但开销减少了10倍，并且没有准确度损失。

Oct, 2023

通过MCU上的小型AI加速器的动态组合实现协同推理

通过动态组合微型AI加速器，Synergy系统有效解决了on-device AI日益增长的需求对tinyML的关键挑战，其虚拟计算空间和运行时协调模块能够提供统一的资源视图和优化的推理，可将吞吐量提高了8.0倍。

Dec, 2023

云端神经网络训练中的保密性保护

Tempo是首个与TEE和分布式GPU合作的基于云的深度学习系统，通过引入以排列为基础的隐匿算法以盲化输入和模型参数，并提出了一种优化机制来减少加密操作，从而在保护模型隐私的同时加速了深度神经网络的训练，实验证明Tempo优于基准方法并提供足够的隐私保护。

Jan, 2024

基于TrustZone启用的消费者物联网设备上的高效内存和安全的DNN推理

边缘智能允许资源密集型深度神经网络进行推理，而无需传输原始数据，解决了消费者物联网设备中的数据隐私问题。我们提出了一种在TrustZone中进行先进模型部署的新方法，确保在模型推理过程中综合保护隐私。我们设计了一种内存高效的管理方法，支持内存密集型推理，通过调整内存优先级，有效地减少内存泄漏风险和内存冲突，并在受信任的操作系统中进行了32行代码的修改。此外，我们利用了两个小型库：S-Tinylib（2,538行代码），一个小型深度学习库，和Tinylibm（827行代码），一个小型数学库，以支持在受信任执行环境中的高效推理。我们在Raspberry Pi 3B+上实现了一个原型，并使用三个知名的轻量级DNN模型进行了评估。实验结果表明，与在TEE中使用非内存优化方法相比，我们的设计能够将推理速度提高3.13倍，并降低功耗超过66.5%。

Mar, 2024

RISC-V系统机器学习推理工作负载的全栈评估

通过使用基于多级中间表示（MLIR）的开源编译工具链，该研究在gem5这个开源架构模拟器上评估了RISC-V架构上各种机器学习工作负载的性能，并揭示了gem5在模拟RISC-V架构时的当前限制，为未来的开发和改进提供了见解。

May, 2024

VeriSplit: 通过IoT设备安全且实用地进行机器学习推理卸载

提出了一种名为VeriSplit的机器学习推理离线框架，使用掩码技术保护数据隐私和模型机密性，并采用基于承诺的验证协议确保推理结果的完整性。相比于本地计算，该解决方案能够减少推理延迟28%-83%。

Jun, 2024

TensorTEE: 统一异构 TEE 粒度，实现高效安全协同张量计算

提出了一种用于高效安全协同张量计算的统一张量粒度异构TEE解决方案，通过虚拟支持CPU TEE中的张量粒度以及张量粒度的MAC管理和直接数据传输，改进了大语言模型训练工作负载的性能并提供了实际的安全保障。

Jul, 2024