RCMHA: 相对卷积多头注意力用于自然语言建模

Aug, 2023

RCMHA: 相对卷积多头注意力用于自然语言建模

RCMHA: Relative Convolutional Multi-Head Attention for Natural Language Modelling

Herman Sugiharto, Aradea, Husni Mubarok

TL;DR在语言建模中，通过利用相对位置编码与深度卷积层架构相结合的改进 MHA 模块，提高准确性并减少内存使用，该模块在实证实验中展现了超越其他注意力模块的优势。

Abstract

The attention module finds common usage in language modeling, presenting distinct challenges within the broader scope of Natural Language Processing. →

attention module language modeling multi-head attention positional encoding rcmha framework

发现论文，激发创造

对抗多头：利用注意力头嵌入实现高效参数的多头注意力

我们提出了一种使用单个共享投影矩阵和多个头嵌入（MHE）的替代模块，实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率，并且相对于 MHA 仅需要可忽略的附加参数。

Oct, 2023

通过动态组合的多头注意力机制改进 Transformer

提出了一种动态可组合的多头注意力 (DCMHA) 架构，通过动态组合注意力头解决了多头注意力中的问题，并显著提升了模型的表达能力，达到了与具有大约 1.7-2.0 倍计算量的模型相当的性能水平。

May, 2024

DHA：通过自适应头融合从 Transformer 检查点学习分离头注意力

通过分析注意力冗余，设计了一种解耦式头部注意力机制（Decoupled-Head Attention，DHA），达到性能和效率之间的更好平衡，通过逐步线性融合类似头部参数来将 Multi-Head Attention（MHA）模型转换为 DHA 模型，实现了预训练预算的极大节约和高性能的平衡。

Jun, 2024

多分辨率分析 (MRA) 用于近似自注意力

利用 Multiresolution Analysis 中的 Wavelets 概念构建一种高效的自我关注模型，同时在短序列和长序列的 NLP 任务上均表现优异。

Jul, 2022

HMANet：基于混合多轴聚合网络的图像超分辨率

本文提出了一种新颖的混合多轴聚合网络（HMA），通过叠加残差混合 Transformer 块（RHTB）和网格注意力块（GAB），在超分辨率视觉任务中充分利用特征潜力信息，并通过实验验证了该模型的有效性。

May, 2024

卷积与自注意力：重新解释预训练语言模型中的相对位置

该研究探讨了卷积和自注意力在自然语言任务中的关系，提出了一种将卷积融合到自注意力中的方法，并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。

Jun, 2021

基于注意力头的注意力混合模型：逐标记选择注意力头

本文提出了一种新的神经网络结构 MoA （即 Mixture of Attention Heads），它结合了 Mixture-of-Experts 和 Multi-head Attention 机制，通过动态地选择 Attention Heads 实现了条件计算，有效提高了多个自然语言处理任务的性能，并提供了一种新的模型可解释性视角。

Oct, 2022

多头注意力的支柱寻找

本文提出了使用最小冗余特征选择的思想，通过聚焦于最具代表性和独特性的特征，采用自监督群组约束进行训练的 Grouped Head Attention 模型，以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明，该方法在三个基准任务上显著提高性能的同时，压缩参数。

May, 2023

HCAM -- 多模态情感识别的层级交叉关注模型

本文提出了一种基于 HCAM 方法的跨模态情绪识别模型，使用神经网络模型组合音频和文本数据，在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。

Apr, 2023

通过层注意力进行跨层次追溯检索

提出跨层多头循环层关注（MRLA）机制，以检索来自不同感受野级别的查询相关信息来丰富许多视觉网络的表示能力，并在图像分类、目标检测和实例分割等任务中获得了显著的提升。

Feb, 2023