E-LANG: 基于能量的超级和迅速语言模型联合推理

ACLMar, 2022

E-LANG: 基于能量的超级和迅速语言模型联合推理

E-LANG: Energy-Based Joint Inferencing of Super and Swift Language Models

Mohammad Akbari, Amin Banitalebi-Dehkordi, Yong Zhang

TL;DR本文提出了一种名为 E-LANG 的有效的动态推理方法，该方法将推理分布在大型准确的 Super 模型和轻量级 Swift 模型之间，可以适用于黑盒预训练模型，并且适用于编码器 - 解码器结构和序列到序列任务。通过在 GLUE、SuperGLUE 和 WMT 上进行一系列实验验证 E-LANG 的性能。在 GLUE 和 SuperGLUE 上，我们的方法与 T5-11B 相比，平均计算速度提高 3.3 倍和 2.9 倍。在 GLUE 上，我们实现了基于 BERT 的 SOTA，并且计算次数减少了 3.2 倍。

Abstract

Building huge and highly capable language models has been a trend in the past years. Despite their great performance, they incur high computational cost. A common solution is to apply model compression or choose

language models model compression dynamic inference encoder-decoder structures computational speed-up

发现论文，激发创造

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

EdgeBERT：面向延迟感知的多任务 NLP 推理的句子级能耗优化

EdgeBERT 是一种算法硬件协同设计，提供基于熵的早期退出预测，以进行动态电压频率缩放 (DVFS)，从而实现最小能耗，同时遵循预定的目标延迟，以适应资源受限的边缘平台，在最小的计算和存储占用开销下，提供多任务自然语言处理 (NLP) 加速，相比于传统的推理方法，无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配，EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面，能够生成高达 7x，2.5x 和 53x 的低能耗。

Nov, 2020

使用不同结构和训练方法探索基于能量的语言模型在语音识别中的应用

本篇论文研究基于能量的语言模型在语音识别中的应用，使用现代化的 Transformer 网络和预训练模型 BERT 和 GPT2 对模型进行改进和调整，并探究不同的能量函数构架和训练方法。

May, 2023

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

COST-EFF：细化多出口语言模型在空间和时间效率上的协同优化

提出了一种用于 PLM 的协作优化算法，该算法集成了静态模型压缩和动态推理加速，通过在宽度上将 PLM 变得苗条同时保持深度，同时补充逐层早期退出以动态加速推理。

Oct, 2022

面向可编译性约束的代码生成的基于能量的模型

本研究探讨神经语言模型训练源代码的可行性，将编译能力作为约束条件，使用基于能量的模型生成编译代码，提高生成样本的编译能力。

Jun, 2021

大型语言模型的模型压缩与高效推理：调研

这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Feb, 2024

弹性语言模型

弹性语言模型（ElasticLM）根据请求流动弹性地调整权衡，并设计弹性优化来学习，以实现在线搜索和信息检索任务。

Nov, 2023

双通路低延迟端到端口语理解

本研究利用内部预训练的语言模型构建强大的语义表示，使用 2 段 SLU 系统，结合语义和语音特征进行高质量语音识别，以提高用户体验和降低延迟。

Jul, 2022

高效编码格子用于重排

本文探讨了一种名为 EEL 的方法，使用 Transformers 对生成的输出的网状结构进行编码，结合新型的分词因素的迭代筛选算法 TFR，实现对 “下游指标” 进行重新排序的多文本生成任务模型的优化。通过实证研究，该算法的速度相对于传统算法提高不少，并且效果也比传统方法更好。

Jun, 2023