MoA: 自动大规模语言模型压缩的稀疏注意力混合

Jun, 2024

MoA: 自动大规模语言模型压缩的稀疏注意力混合

MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

Tianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen...

TL;DR稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求，我们提出了混合注意力（MoA），它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置，通过优化稀疏注意力压缩方案，MoA 在保持平均注意力范围不变的情况下，将有效上下文长度提高 3.9 倍，并在多个评估指标上取得 1.5-7.1 倍的准确性提升，在 GPU 内存减少 1.2-1.4 倍的同时，提升解码吞吐量 5.5-6.7 倍。

Abstract

sparse attention can effectively mitigate the significant memory and throughput demands of large language models (LLMs) in long contexts. Existing methods typically employ a uniform →

sparse attention large language models attention patterns compression plan gpu memory reduction

发现论文，激发创造

基于注意力头的注意力混合模型：逐标记选择注意力头

本文提出了一种新的神经网络结构 MoA （即 Mixture of Attention Heads），它结合了 Mixture-of-Experts 和 Multi-head Attention 机制，通过动态地选择 Attention Heads 实现了条件计算，有效提高了多个自然语言处理任务的性能，并提供了一种新的模型可解释性视角。

Oct, 2022

MoA: 个性化图像生成中的主题 - 上下文分离的注意力混合

我们提出了一种新的用于个性化文本到图像扩散模型的架构，称为混合关注机制（MoA）。MoA 通过将生成工作负载分配给个性化分支和非个性化先验分支两个注意力路径来分布生成负载。

Apr, 2024

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

利用注意力混合学习切片感知表示

本文利用混合注意力的方法扩展了 slice-based learning (SBL)，学习了切片感知的双重关注模型，实验证明这种方法在监测切片上比基准方法和原始 SBL 方法表现更好。

Jun, 2021

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。

Jun, 2024

多智能体混合增强大型语言模型能力

利用大型语言模型的集体优势，提出了一种基于多代理的混合方法，该方法在多个任务上取得了领先的性能，特别在 AlpacaEval 2.0 上实现了 65.1% 的得分，超过了 GPT-4 Omni 的 57.5%。

Jun, 2024

LongLoRA: 长文本大语言模型的高效微调

LongLoRA 是一种高效的微调方法，通过有限的计算成本扩展了预训练大型语言模型（LLMs）的上下文大小。

Sep, 2023

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

LoMA：无损压缩的内存注意力

提出了一种新方法，即无损压缩记忆关注（LoMA）方法，可以根据一组压缩比将信息无损地压缩到特殊记忆令牌 KV 对中，实现资源消耗的减少，并取得了显著的结果。

Jan, 2024

MoAI：大规模语言和视觉模型的全智能混合

通过利用外部计算机视觉模型的输出所获取的辅助视觉信息，本文介绍了一种新型的大型语言和视觉模型（LLVM），名为混合智能（MoAI），通过整合视觉特征、外部模型的辅助特征和语言特征来在各种零样本视觉语言任务中显著优于其他 LLVMs，并且不需要增加模型大小或专门制定额外的视觉指令微调数据集。

Mar, 2024