RCMHA: 相对卷积多头注意力用于自然语言建模
我们提出了一种使用单个共享投影矩阵和多个头嵌入(MHE)的替代模块,实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率,并且相对于 MHA 仅需要可忽略的附加参数。
Oct, 2023
提出了一种动态可组合的多头注意力 (DCMHA) 架构,通过动态组合注意力头解决了多头注意力中的问题,并显著提升了模型的表达能力,达到了与具有大约 1.7-2.0 倍计算量的模型相当的性能水平。
May, 2024
通过分析注意力冗余,设计了一种解耦式头部注意力机制(Decoupled-Head Attention,DHA),达到性能和效率之间的更好平衡,通过逐步线性融合类似头部参数来将 Multi-Head Attention(MHA)模型转换为 DHA 模型,实现了预训练预算的极大节约和高性能的平衡。
Jun, 2024
利用 Multiresolution Analysis 中的 Wavelets 概念构建一种高效的自我关注模型,同时在短序列和长序列的 NLP 任务上均表现优异。
Jul, 2022
本文提出了一种新颖的混合多轴聚合网络(HMA),通过叠加残差混合 Transformer 块(RHTB)和网格注意力块(GAB),在超分辨率视觉任务中充分利用特征潜力信息,并通过实验验证了该模型的有效性。
May, 2024
该研究探讨了卷积和自注意力在自然语言任务中的关系,提出了一种将卷积融合到自注意力中的方法,并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。
Jun, 2021
本文提出了一种新的神经网络结构 MoA (即 Mixture of Attention Heads),它结合了 Mixture-of-Experts 和 Multi-head Attention 机制,通过动态地选择 Attention Heads 实现了条件计算,有效提高了多个自然语言处理任务的性能,并提供了一种新的模型可解释性视角。
Oct, 2022
本文提出了使用最小冗余特征选择的思想,通过聚焦于最具代表性和独特性的特征,采用自监督群组约束进行训练的 Grouped Head Attention 模型,以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明,该方法在三个基准任务上显著提高性能的同时,压缩参数。
May, 2023
本文提出了一种基于 HCAM 方法的跨模态情绪识别模型,使用神经网络模型组合音频和文本数据,在 IEMOCAP、MELD 和 CMU-MOSI 三个数据集上达到了最先进的结果。
Apr, 2023
提出跨层多头循环层关注(MRLA)机制,以检索来自不同感受野级别的查询相关信息来丰富许多视觉网络的表示能力,并在图像分类、目标检测和实例分割等任务中获得了显著的提升。
Feb, 2023