Transformer 模型的查询键归一化
通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。
Oct, 2019
本文提出了一种简单而有效的 Querybank Normalisation(QB-Norm)方法,用于应对嵌入空间中出现的中心点问题,并获得更好的跨模态检索性能,无需重训练,同时还提出了一种新的相似度标准化方法,Dynamic Inverted Softmax,可以更好地应对模型训练时出现的不稳定性。
Dec, 2021
我们通过比较标准注意力机制和仅依赖于位置的简化版本(而不涉及查询和键)在参数化变分波函数领域的性能,在减少计算成本和参数使用的同时取得了竞争性结果。此外,通过分析标准注意力机制生成的注意力图,我们证明了在优化结束时,注意力权重变得有效地与输入无关。我们通过分析计算结果支持了这一结论,并提供了在研究大系统时为何应该从注意力机制中排除查询和键的物理洞见。有趣的是,在输入句子较长的情况下,相同的论点可以推广到自然语言处理领域。
May, 2024
通过除以键值长度之和而非平方根,我们提出了一种替代方法来缩放点积,以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示,这种方法在许多情况下更有效。
Nov, 2023
本文介绍了一种解决 Transformer 模型二次计算复杂度的简单有效方法,并采用序列标准化技术和矩阵乘法重新排序,使得该方法能够在处理更长序列时降低内存和计算复杂度,从而与传统 Transformer 模型具有可比较的性能。
Jun, 2024
本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。
Jun, 2021
这篇研究论文介绍了一种名为 NLQxform 的问答系统,它基于变压器模型 BART,可以通过自然语言界面访问学术知识图谱,实现复杂查询意图的转换和信息检索。在 Scholarly QALD Challenge 中,NLQxform 在 QA 任务上获得 0.85 的 F1 分数,并在排行榜上名列第一,展示了系统的竞争力。
Nov, 2023
本文提出了两种知识蒸馏方法,即注意力映射和注意力输出损失,并探索了两者的统一,以解决注意力重构的不足。实验结果表明,这两种知识蒸馏方法可以在使用小于 2 位的量化权重时,获得具有先进性的精度。
Nov, 2022