通过上下文信息来提高自注意力网络有效性的研究表明,利用内部嵌入全局和深度上下文的方式来上下文化查询和键层变换可以提高翻译任务的性能.
Feb, 2019
本篇论文探讨如何应用自注意力机制解决计算复杂度、模型稳定性和位置信息等问题,相比于 LSTM 模型,该模型不仅运算时间更快,而且更具可解释性。
Mar, 2018
本文研究了在长文本摘要场景中采用限定范围的模型是否能够提供比具有全局范围的模型更高的性能,并探讨了在不同层次(从句子到文档)的三种文本局部性,实验结果表明,采用局部化建模策略的模型具有更好的性能。
May, 2022
自我注意机制在现代机器学习中盛行,通过调节注意定位的程度,它有能力自适应地从输入序列中选择标记,被许多研究人员认为是强大模型性能的基础之一,但也使学习动态的基本机制复杂化。近年来,主要有两个论点将注意定位与模型性能联系起来,即秩坍缩和熵崩溃,它们似乎互相矛盾,但通过特征化查询 - 键参数矩阵的特征谱,我们揭示出小特征谱方差会防止秩和熵的崩溃,从而提高模型的表达能力和可训练性。
Feb, 2024
提出了一种基于图神经网络的网络定位方法,通过结合关注机制,在严重的非直线视线传播情况下实现了卓越的稳定性和准确性,消除了离线校准或非直线视线识别的需求。
Nov, 2023
本文介绍了一种新颖的全局 - 局部注意机制用于关系分类,通过将全局注意力与局部关注度相结合来提升全局关注度。此外,我们提出了创新的硬与软定位机制,以识别局部注意的潜在关键字。通过同时融入硬和软定位策略,我们的方法对有效关系分类的语境线索提供了更加细致全面的理解。我们在 SemEval-2010 任务 8 数据集上的实验结果显示了我们的方法相对于前期关注机制的优越性能。
Jul, 2024
本文提出了 contextualized non-local neural networks (CN3) 模型,它综合了 self-attention 和 graph neural networks 两种方法的优点,能在一定范围内构建特定任务的句子结构,从而在文本分类、语义匹配和序列标注等 10 个 NLP 任务中表现优异。
Nov, 2018
该论文研究了自注意力在计算机视觉领域的应用,并提出了两种改进模型的方法,使其在速度、内存使用和准确性等方面优于传统的卷积模型,进而提出了一种名为 HaloNets 的新的自注意力模型家族,并在 ImageNet 分类基准测试中取得了最先进的准确性。
Mar, 2021
本研究提出了多通路结构的 Transformer 模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
Jul, 2021
本文介绍了一种新的自我注意力模块,使用一种明确建模的注意力映射,利用几何先验来提高图像分类的准确性,实验证明该方法在 ImageNet ILSVRC 中的准确性提升了 2.2%,在参数和计算量分别减少 6.4% 和 6.7% 的情况下,相对于 AA-ResNet152 准确率提高了 0.9%。
Jun, 2020