TFLMS：TensorFlow 中的图重写大模型支持

MMJul, 2018

TFLMS：TensorFlow 中的图重写大模型支持

TFLMS: Large Model Support in TensorFlow by Graph Rewriting

Tung D. Le, Haruki Imai, Yasushi Negishi, Kiyokuni Kawachiya

TL;DR本研究提出了一种解决深层神经网络在内存不足的情况下训练的方法，通过在计算图中插入 swap-out 和 swap-in 操作暂时将中间结果存储到 CPU 内存中，实现了较大规模深层神经网络的训练，并通过 TFLMS 模块发布到 TensorFlow 仓库，成功训练了 ResNet-50 和 3DUnet。

Abstract

While accelerators such as GPUs have limited memory, deep neural networks are becoming larger and will not fit with the memory limitation of accelerators for training. We propose an approach to tackle this problem by rewriting the →

neural networks computational graph swap-out swap-in tflms

发现论文，激发创造

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在 DRAM 之外，以满足超过 DRAM 容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加数据块大小的 “行列捆绑”。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU 和 GPU 分别实现 4-5 倍和 20-25 倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

Dec, 2023

使用新的执行算法，以恒定内存训练大型神经网络

本研究提出一种名为 L2L 的新型执行技术，使用 16GB V100 设备可以在单个 16GB V100 和 512GB CPU 内存的机器上承载高达 50 亿个参数的模型，相比现有方法，减少了 45％的内存使用量并提高了 40％的吞吐量，实现了人工智能民主化。

Feb, 2020

SmartMem: 移动设备上高效执行 DNN 的布局变换消除和适应性

这篇论文介绍了 SmartMem，一个综合的框架，通过智能选择布局和实施操作，消除了大多数布局变换，并开发出适用于移动设备常见的 2.5 维内存的高效内存布局。实验结果表明，SmartMem 在 18 个不同神经网络上的移动设备上性能优于 5 个最先进的 DNN 执行框架，包括卷积神经网络、具有局部和全局注意力的 Transformer 以及 LLMs。特别是，与 DNNFusion 相比，SmartMem 的平均加速比为 2.8 倍，并且在平均值上优于 TVM 和 MNN，速度提高了 6.9 倍和 7.9 倍。

Apr, 2024

在最边缘上的 LLM 联邦微调：好，坏，丑陋

通过硬件为中心的方法，本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统，并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调，以进行文本摘要任务。通过与数据中心 GPU 的比较，我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力，并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。

Oct, 2023

FlightLLM: 基于 FPGA 的高效大型语言模型推断及其完整映射流程

该研究论文提出了一种基于 FPGA 的 FlightLLM 方法，通过利用 FPGA 特定资源和创新解决方案，实现了大规模语言模型（LLMs）的高效推理，包括压缩技术、计算效率、内存带宽和编译开销等方面的优化。在实验中，该方法在 Xilinx Alveo U280 FPGA 上实现了高达 6.0 倍的能效提升和 1.8 倍的成本效益，同时在吞吐量方面也超过了 NVIDIA A100 GPU。

Jan, 2024

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

高效提取边缘应用的 LLM

MLFS 是一种能够通过多级低秩微调超级变压器实现参数高效的超网络训练方法，可产生适用于商业边缘应用的高质量编码器模型，并可通过对解码器进行切片来显著减少训练时间。

Apr, 2024

SwapNet: 边缘 AI 设备上高效交换的 DNN 推断处理超出内存预算

在边缘人工智能设备上执行深度神经网络（DNNs）可以实现各种自主移动计算应用，但是边缘人工智能设备的内存预算限制了此类应用中允许的 DNN 数量和复杂性。为了避免这些缺点，我们将 DNN 分解为块并按顺序进行交换，以使大规模 DNN 能够在较小的内存预算内执行。然而，在边缘人工智能设备上进行简单的交换会由于 DNN 开发生态系统中的冗余内存操作而导致显著延迟。为此，我们开发了 SwapNet，一种用于边缘人工智能设备的高效 DNN 块交换中间件。我们在保持与边缘人工智能设备的深度学习框架、GPU 后端和硬件架构兼容的同时，系统地消除了块交换过程中不必要的内存操作。我们通过一个多 DNN 调度方案进一步展示了 SwapNet 的实用性。在三个应用中对十一个 DNN 推断任务的评估结果表明，即使 DNN 在可用预算之外需要 2.32 倍至 5.81 倍的内存，SwapNet 的延迟几乎与具有充足内存的情况相同。SwapNet 的设计还为将大型语言模型（LLMs）部署到边缘人工智能设备上提供了新颖而可行的见解。

Jan, 2024

多尺度低频记忆网络用于改进卷积神经网络中的特征提取

使用 Multiscale Low-Frequency Memory (MLFM) 网络框架，通过有效地保存低频信息来提高卷积神经网络的性能。测试结果表明，MLFM 能够显著提高多种 2D CNNs 和语义分割网络在图像分类和图像翻译任务方面的准确性和效率。

Mar, 2024

记忆增强型大语言模型是计算通用的

我们展示了通过增加外部记忆来增强变压器型大语言模型以实现计算机普适性的方法。在不修改语言模型权重的情况下，我们将迭代设计被存储的指令计算机以精确模拟通用图灵机 U 15,2，从而证明了这一方法的可行性。

Jan, 2023