不是所有的注意力都有必要：针对多模态大型语言模型的参数和计算效率高的迁移学习

Mar, 2024

不是所有的注意力都有必要：针对多模态大型语言模型的参数和计算效率高的迁移学习

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

PDF

Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji

TL;DR本文提出了一种针对多模态大型语言模型（MLLMs）的参数和计算效率高的新调优方法，称为 Efficient Attention Skipping (EAS)。通过评估注意力冗余并跳过不重要的多头注意力机制（MHAs）来加快推理速度，同时通过传播信息适配器（PIA）以保持参数效率，进一步降低推理延迟，并通过对一组基准测试的大量实验证明，EAS 不仅保持了高性能和参数效率，还极大地提升了推理速度。

Abstract

In this paper, we propose a novel parameter and computation efficient tuning method for multi-modal large language models (MLLMs), termed Efficient Attention Skipping (EAS). Concretely, we first reveal that multi-head attentions (MHAs), the main computational overhead of MLLMs, are oft

multi-modal large language models efficient attention skipping multi-head attentions propagation-of-information adapter inference speed

发现论文，激发创造

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

多模态注意力融合用于提升语音识别和音频事件分类

使用自我监督目标进行大型基础模型的训练，然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合（MAM）方法，通过零 - shot 范式，实现了从高资源模态（文本和图像）的注意力矩阵到资源受限领域（语音和音频）的知识转移。MAM 可将自动语音识别（ASR）模型的相对字错误率（WER）降低多达 6.70％，将音频事件分类（AEC）模型的相对分类错误率降低 10.63％。在一些数据 / 计算资源可用的情况下，我们提出了可学习的 MAM 方法，用于合并注意力矩阵，进一步将 ASR 的 WER 降低 2.90％，AEC 降低 18.42％，相对于微调方法。

Dec, 2023

调整 Attention 中的 LayerNorm：朝着高效的多模态 LLM 微调

将大型语言模型（LLMs）转换为多模式大型语言模型（MLLMs）的有效策略，通过调整 LayerNorm 来实现性能提升和模型表现力改善。该策略相较于其他调整方法具有高效性，同时进一步使用对话数据进行选择性调整能够提高效率。

Dec, 2023

TAIA：大型语言模型的非分布式数据学习者

通过细调参数和推理时干预的 Transformer 模型，能够在数据匮乏的领域中提高大语言模型的性能。

May, 2024

自选注意力范围加速大型语言模型推理

训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。

Apr, 2024

EL-Attention: 面向生成的记忆效率高的无损注意力

提出了一种名为 EL-attention 的记忆高效的无损注意力机制，它避免了传统基于 cache 的多头注意力机制的高运算代价，通过扩展 query 并保持 key 和 value 的共享来构造注意力结果，从而实现了与传统方法相同的结果，在不损失准确性的情况下，将现有模型的推断速度提高了 1.6 倍至 5.3 倍。

May, 2021

混合 $h-1$ 个头比 $h$ 个头更好

通过重新分配注意力头部，我们提出了一种混合专家模型（MAE），其利用分块协调下降算法对其进行训练，并在机器翻译任务和语言建模任务中表现出优异的性能。

May, 2020

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024