- LoRA-Ensemble: 自注意力网络的高效不确定性建模
我们引入了一种基于低秩调整(LoRA)的参数高效深度集成方法,即 LoRA-Ensemble,用于自注意力网络,通过在预训练的自注意力网络中共享权重并训练成员特定的低秩矩阵,我们的方法在校准方面表现出优越性,并在各种预测任务和数据集上实现了 - StreakNet-Arch: 水下载波雷达成像的基于反散射网络的架构
介绍了一种用于水下载波 LiDAR-Radar(UCLR)成像系统的新型信号处理架构 StreakNet-Arch,通过引入自注意力网络和提出的双分支交叉注意力机制(DBC-Attention),形成了实时的端到端二分类任务,实现了实时图像 - EMNLP线性变压器及其递归和自指扩展的实际计算能力
通过研究具有线性化注意力的自回归 Transformer,即线性 Transformer(LT)或快速权重编程器(FWP),我们发现许多应用于标准 Transformer 的知名结果可以直接转移到 LTs / FWPs,并证明了最近提出的 - SIGIR基于解耦的顺序推荐侧信息融合
通过提出一个新的解决方案,Decoupled Side Information Fusion, 提高了序列推荐中不同侧面信息的建模能力,通过实验验证了该方法在四个真实数据集上的有效性。
- ACLHiddenCut: 自然语言理解的简单数据增强方法提升泛化性能
通过数据增广技术 HiddenCut,可以更好地规范化模型,激励其学习更通用的特征,从而在 GLUE 基准测试上表现出比现有技术更好的表现。
- ACL自注意力网络能够处理有界的分层语言
证明自注意力网络可以处理具有层次结构的正式语言,例如 Dyck_k,但被证明对于近似自然语言来说过于有限,因此提出了在有限深度内捕获自然语言有界层次结构的 Dyck_(k,D) 子集,并构建了相应的硬注意力网络和软注意力网络。实验表明在此子 - 注意力不是唯一的解决方案:仅仅使用注意力机制会随着深度呈双倍指数级别的降低
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收 - 自注意力编码与池化在说话人识别中的应用
本文提出了 Tandem 自注意编码和池化(SAEP)机制来获取短语音说话人的辨别性 embedding,该方法利用了自注意力和位置编码,证明了该方法的有效性是比 ResNet-34,ResNet-50 和 x-vector 更高效的。
- AAAI图像分类的明确建模注意力图
本文介绍了一种新的自我注意力模块,使用一种明确建模的注意力映射,利用几何先验来提高图像分类的准确性,实验证明该方法在 ImageNet ILSVRC 中的准确性提升了 2.2%,在参数和计算量分别减少 6.4% 和 6.7% 的情况下,相对 - ACL选择性机制如何提高自注意力网络?
本文通过评估实现灵活通用的 Gumbel-Softmax 的选择性自注意力网络(SSANs)的性能,在多个代表性 NLP 任务中,包括自然语言推理、语义角色标注和机器翻译,实验结果显示,SSANs 一致优于标准 SANs 并通过良好设计的探 - ACL跨语言位置表示的自注意力
本文使用跨语言位置表示法,将自注意力网络中的位置编码扩展为双语感知潜在结构,利用括号转换语法(BTG)基于重排序信息,以鼓励自注意力网络学习双语对角线对齐,并通过 WMT'14 英语⇒德语,WAT'17 日语⇒英语,WMT'17 中英互译任 - 适应性交互融合网络用于假新闻检测
提出了自适应交互融合网络(AIFN),其中使用门控自适应交互网络(GAIN)发现语义冲突,并使用语义级融合自注意网络(SFSN)增强特征相关性和融合。在 RumourEval 和 PHEME 两个真实世界的数据集上的广泛实验表明,AIFN - 利用持久性内存模型的 DFSMN-SAN 自动语音识别
本文研究将自我关注网络和带增强记忆的自我关注层引入自动语音识别中,提出了一种 DFSMN-SAN 架构来比较两种类型的自我关注层的效果,实验证明该模型在大规模语音识别任务中相较于基准模型有较大幅度的性能提升。
- EMNLP有序神经元自注意力模型中层次结构建模的改进
研究表明自注意网络和循环神经网络的混合模型表现优于单个模型,该论文提出用 Ordered Neurons LSTM 增强混合模型,以更好地建模层次结构,并在机器翻译任务,基于目标语言的评估和逻辑推理任务上的实验证明该方法的优越性。
- EMNLP带有结构位置表示的自注意力机制
本文提出将依赖树结构位置表示与传统的序列位置编码相结合,以更好地模拟输入句子的潜在结构,在中文到英文和英文到德语的翻译任务中,分别针对绝对和相对位置编码方式,实验证明提出的方法能够稳定提高自我注意力网络在各种自然语言处理任务上的表现。
- ACL自注意力网络学习单词顺序的能力评估
本文探讨了自注意力机制(SAN)在序列建模中缺乏位置信息的问题,并通过一项新的单词重新排序检测任务分别检测了 SAN 和循环神经网络(RNN)的单词位置学习情况,实验结果表明,虽然缺乏循环结构,但在机器翻译中,SAN 通过学习单词位置的方式 - ACL自我注意网络的建设性类型逻辑超标记
应用自注意力网络进行语法归纳,提出面向细化型逻辑语法的基于注意力的超标注器,能够在训练过程中学习语法类型系统的语法和指称语义,从而提高了超标注器的推广能力。
- ACL一种用于序列建模的轻量级循环网络
本文介绍了一种称为 LRN 的轻量级循环神经网络,它使用输入和遗忘门来处理长时间的依赖性以及梯度消失和爆炸,并且可以作为替代现有循环单元的可落地的解决方案,该方法将计算量从循环中转移至外部,并与自我注意力网络紧密连接。通过六项自然语言处理任 - ACL卷积自注意力网络
本篇论文介绍了一种新颖的卷积自注意力网络,通过引入多头注意力机制,加强了邻近元素之间的依赖关系,并能够对各个注意力头提取的特征之间的交互进行建模,用于机器翻译任务中能有效提高自注意力网络的本地性,实验证明该方法优于常用的 Transform - 自注意力:情感分析神经网络分类器的更好构建块
本文探讨了使用自注意网络 (Self-Attention Networks) 进行情感分析的有效性,发现相较于循环神经网络 (RNNs) 和卷积神经网络 (CNNs),使用自注意网络在分类准确率、训练速度和内存消耗方面表现优越,并研究了多头