多层可学习的多模态任务注意力掩码

Jun, 2024

多层可学习的多模态任务注意力掩码

Multi-layer Learnable Attention Mask for Multimodal Tasks

Wayner Barrios, SouYoung Jin

TL;DR通过引入可学习的注意力掩码（LAM）来全局调控注意力图并优先选择序列中的关键标记，该方法在 BERT-like transformer 网络中充分捕捉了标记之间的关联，通过对多层版本的 LAM 的扩展适应了 Transformer 网络各层的不同信息，实验证明该方法在不同数据集上有效地提升模型性能并减少冗余计算，从而对复杂情景理解方面，如电影理解等，取得了显著的进展。

Abstract

While the self-attention mechanism in the transformer model has proven to be effective in many domains, we observe that it is less effective in more diverse settings (e.g. multimodality) due to the varying granul

self-attention transformer model learnable attention mask bert-like transformer network multi-layer version

发现论文，激发创造

TLM：用于 Transformer 的令牌级屏蔽

使用基于令牌级别的掩蔽训练策略，通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制，以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估，并证明在性能上优于其他规范化方法。

Oct, 2023

将 LLaMA 解码器调整为视觉 Transformer

该研究探讨了将原本为大型语言模型（LLMs）设计的仅解码器 Transformer（如 LLaMA）改编为适用于计算机视觉领域的可能性，并成功开发了一种名为 iLLaMA 的模型，具备高效计算能力和学习复杂表示的特点，达到了优秀的 ImageNet 数据集准确率。

Apr, 2024

使用可学习记忆调优图像 Transformer

该研究提出使用可学习的记忆令牌来增强视觉 Transformer 模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即 “记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Mar, 2022

混合自注意力网络用于机器翻译

本研究中，我们提出了一种名为 HySAN 的新型自注意力机制，它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义，并引入挤压门来融合不同类型的自注意力网络，在三个机器翻译任务上实现了优于 Transform 的显著基线，并实现了超越最先进的 NMT 系统的卓越结果。

Nov, 2018

学生不应看到的内容：基于注意力引导的遮蔽图像建模

本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势，即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为，在 MIM 中，图像记号掩蔽与文本中的掩蔽不同，因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务，我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想，其中教师 Transformer 编码器生成关注图，该图我们用于指导学生的掩蔽。因此，我们引入了一种新的掩蔽策略，称为注意力引导掩蔽 (AttMask)，并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认，AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。

Mar, 2022

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

AttentionLego：一种用于空间可扩展大型语言模型加速器的开源构建模块与内存中处理技术

使用 Transformer 架构的大型语言模型（LLMs）在自然语言处理、多模式生成人工智能和面向代理的人工智能领域取得了巨大成功。为了解决通用图形处理单元（GPUs）在计算过程中的输入 / 输出带宽需求问题，研究开发了一种全定制化的基于自注意力机制的加速器 AttentionLego，用于构建可扩展的 LLM 处理器。AttentionLego 基于处理内存（PIM）技术提供了基本实现，采用了 PIM 基础的矩阵 - 向量乘法和查找表 - Softmax 设计。开源代码可在线获取：this https URL

Jan, 2024

通过模块化线性化注意力提高自回归 NLP 任务的性能

本文提出基于模块化线性化注意力（MLA）的自然语言处理技术，通过结合多种高效的注意力机制，并验证其在自回归任务上显著提升了推理质量和效率。

Apr, 2023

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

时空预测学习的三元注意力变换器

基于历史序列预测未来序列的时空预测学习提供了一种自监督学习范式，主流方法利用循环单元进行建模，但循环单元的并行性不足，常常在现实场景中表现欠佳。为了在保持计算效率的同时提高预测质量，我们提出了一种创新的三元注意力变换器，在设计上捕捉了帧间动态与帧内静态特征。通过将 Triplet Attention Module (TAM) 整合到模型中，我们取代了传统的循环单元，并对时空和通道维度中的自注意力机制进行了深入探索。在这种配置下：(i) 时序标记包含了帧间的抽象表示，有助于捕捉固有的时序依赖性；(ii) 空间和通道的注意力结合，通过在空间和通道维度上进行细粒度交互来改进帧内表示。交替运用时序、空间和通道级别的注意力使得我们的方法能够学习更复杂的短程和长程时空依赖关系。广泛的实验表明，我们的方法在移动物体轨迹预测、交通流预测、驾驶场景预测和人体动作捕捉等多种场景下性能超过了现有的基于循环和非循环方法，达到了最先进水平。

Oct, 2023