Talaria: 交互式优化机器学习模型以实现高效推理

Apr, 2024

Talaria: 交互式优化机器学习模型以实现高效推理

Talaria: Interactively Optimizing Machine Learning Models for Efficient Inference

Fred Hohman, Chaoqun Wang, Jinmook Lee, Jochen Görtler, Dominik Moritz...

TL;DRTalaria 是一个模型可视化和优化系统，通过在设备上进行机器学习来保护用户隐私并提供智能的用户体验。通过优化模型、平衡硬件指标，如模型大小、延迟和功耗，Talaria 帮助从业者创建高效的机器学习模型。

Abstract

on-device machine learning (ML) moves computation from the cloud to personal devices, protecting user privacy and enabling intelligent user experiences. However, fitting models on devices with limited resources presents a major technical challenge: practitioners need to optimize models

on-device machine learning model visualization optimization inference metrics user experience

发现论文，激发创造

基于设备的 TinyML 系统的在线学习和语义管理

近年来微型机器学习（TinyML）的最新进展为低占用嵌入式设备提供了实时的设备端机器学习能力。然而，TinyML 的实际实施面临着独特的挑战。本研究旨在弥合原型设计的单一 TinyML 模型与开发可靠的生产级 TinyML 系统之间的差距: (1) 在动态变化的条件下，嵌入式设备的操作。现有的 TinyML 解决方案主要集中于推断，使用在强大的计算机上进行离线训练的模型，并部署为静态对象。然而，在实际环境中，由于输入数据分布的演变，静态模型可能性能不佳。我们提出在线学习以实现在受限设备上的训练，并使本地模型适应最新的现场条件。(2) 然而，当前的设备端学习方法在部署条件异构和标注数据缺乏的情况下遇到困难，特别是在多设备上应用。我们引入联邦元学习将在线学习结合在一起，以增强模型的泛化能力，促进快速学习。本方法通过知识共享确保分布式设备之间的最佳性能。(3) 此外，TinyML 的重要优势是被广泛采用。嵌入式设备和 TinyML 模型优先考虑高效率，导致资源的多样性，从内存和传感器到模型架构都具有多样性和非标准化的表示，因此在扩展 TinyML 系统时管理这些资源变得具有挑战性。我们提出语义管理以进行模型和设备的联合管理。我们通过一个基本的回归示例演示了我们的方法，然后在三个真实的 TinyML 应用中进行评估：手写字符图像分类，关键词音频分类和智能建筑出席检测，验证了我们方法的有效性。

May, 2024

实践中的模型压缩：从实践者那里学到的在设备上创建机器学习体验的教训

在设备上的机器学习（ML）通过将 ML 计算移至日常个人设备，提供了改善隐私、响应性和新型智能用户体验的可能性。本文通过与苹果的 30 位专注于高效模型开发的专家进行的访谈研究，整理了专家在模型压缩方面通过实际经验所积累的知识，提供了实用的设计过程、权衡和技术策略，旨在将该领域更广泛地引入人类中心的 ML 社区，并给出了相应的设计建议以帮助简化这项工作的难度，推广在设备上进行的 ML 应用。

Oct, 2023

TensorFlow Lite Micro: 嵌入式 TinyML 系统上的机器学习

介绍了一个名为 TensorFlow Lite Micro (TF Micro) 的开源机器学习推理框架，它采用基于解释器的独特方法，旨在解决嵌入式系统资源限制和碎片化挑战等问题。此框架具有低资源需求和最小的运行时性能开销。

Oct, 2020

推理服务系统的高精度、成本效益和低延迟的调和

提出 InfAdapter 系统，使用机器学习变体及其资源分配来满足延迟服务级别目标（SLO），同时最大化由准确性和成本组成的目标函数，从而降低 SLO 违规和成本高达 65％和 33％。

Apr, 2023

MELTing 点：语言变形器的移动评估

机器学习中的 Transformers 引领了一场革命，但由于其运行时要求，不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况，并对性能、能效和准确性进行了量化。结果表明，移动设备的执行存在性能差异，LLM 的执行主要受内存限制。量化可以显著减少内存需求，但会带来一定的准确性损失。同时，作者认为生态系统仍处于初级阶段，并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。

Mar, 2024

设备端机器学习：算法与学习理论视角

本篇论文对设备上的机器学习进行了全面的调查和分类，将 On-device Learning 问题重新表述为资源受限的学习，如何在设备资源有限的情况下进行模型训练是未来需要关注的重点。

Nov, 2019

MLPerf 推理基准测试

这篇文章介绍了通过制定一套标准的机器学习基准测试和评估准则来评估以不同结构构建的机器学习硬件和软件系统的性能，以解决各种机器学习结构的评估所面临的挑战。

Nov, 2019

TALM: 工具增强型语言模型

本文介绍了一种基于迭代 “自我对弈” 技术的文本增强语言模型方法，使用不可微分的工具扩充语言模型功能，成功在知识丰富型问答和简单工具所需的数学任务中具有很强的表现力，优于非增强型语言模型，在 QA 和数学任务的超越分布推理方面更是取得了成功，证明了工具增强型语言模型是一种非常有前景的方法，可以使语言模型在不依赖于模型（尺度）的基础上具备更多的能力。

May, 2022

在移动设备上监控和调整机器学习模型

Nazar 是第一个端到端移动设备监控和自适应机制的系统，它能够检测和修复由于特定根本原因导致的模型准确度下降，改进了现有方法在计算机视觉数据集上的 15% 的表现。

May, 2023

使用 AutoML 实现加速器感知的神经网络设计

采用硬件意识神经架构搜索，设计了一类适用于 Edge TPU 的计算机视觉模型，有效提升了实时图像分类性能并在像素 4 的边缘 TPU 上改善了精度 - 延迟权衡。

Mar, 2020