Transformer 模型的查询键归一化

EMNLPOct, 2020

Query-Key Normalization for Transformers

Alex Henry, Prudhvi Raj Dachapally, Shubham Pawar, Yuxuan Chen

TL;DR本文提出 QKNorm 方法，对 Transformer 神经网络的 attention 机制进行优化，在不损失表现力情况下，通过可以学习的参数替代平方根作为归一化时分母，减小了 softmax 函数的任意性饱和，实验表明在 5 种语言翻译任务中，较之前最先进的方法，BLEU 平均提高了 0.928 个点

Abstract

low-resource language translation is a challenging but socially valuable NLP task. Building on recent work adapting the transformer's normalization to this setting, we propose →

low-resource language translation transformer's normalization qknorm attention mechanism bleu

发现论文，激发创造

键值变换器

通过对 QKV 模式性能进行评估，我们发现一个结合了 2D 位置编码的不对称的 KV 变压器常常比 QKV 变压器更有效且需要更少的参数和计算。

May, 2023

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019

使用 Querybank 标准化进行跨模态检索

本文提出了一种简单而有效的 Querybank Normalisation（QB-Norm）方法，用于应对嵌入空间中出现的中心点问题，并获得更好的跨模态检索性能，无需重训练，同时还提出了一种新的相似度标准化方法，Dynamic Inverted Softmax，可以更好地应对模型训练时出现的不稳定性。

Dec, 2021

查询和关键字总是相关的吗？Transformer 波函数的案例研究

我们通过比较标准注意力机制和仅依赖于位置的简化版本（而不涉及查询和键）在参数化变分波函数领域的性能，在减少计算成本和参数使用的同时取得了竞争性结果。此外，通过分析标准注意力机制生成的注意力图，我们证明了在优化结束时，注意力权重变得有效地与输入无关。我们通过分析计算结果支持了这一结论，并提供了在研究大系统时为何应该从注意力机制中排除查询和键的物理洞见。有趣的是，在输入句子较长的情况下，相同的论点可以推广到自然语言处理领域。

May, 2024

全局归一化阅读器

通过迭代式搜索及全局归一化决策的神经网络，提出了可提取答案的问答系统并进行了数据增强及实验优化。

Sep, 2017

Transformer 神经网络架构中注意力机制的缩放点积的替代方法

通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。

Nov, 2023

具有无需 Softmax 的高效计算医学图像分类的 Transformers 和序列归一化

本文介绍了一种解决 Transformer 模型二次计算复杂度的简单有效方法，并采用序列标准化技术和矩阵乘法重新排序，使得该方法能够在处理更长序列时降低内存和计算复杂度，从而与传统 Transformer 模型具有可比较的性能。

Jun, 2024

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021

NLQxform: 基于语言模型的问题到 SPARQL 的转换器

这篇研究论文介绍了一种名为 NLQxform 的问答系统，它基于变压器模型 BART，可以通过自然语言界面访问学术知识图谱，实现复杂查询意图的转换和信息检索。在 Scholarly QALD Challenge 中，NLQxform 在 QA 任务上获得 0.85 的 F1 分数，并在排行榜上名列第一，展示了系统的竞争力。

Nov, 2023

理解和改善知识蒸馏，针对大型 Transformer 编码器的量化感知训练

本文提出了两种知识蒸馏方法，即注意力映射和注意力输出损失，并探索了两者的统一，以解决注意力重构的不足。实验结果表明，这两种知识蒸馏方法可以在使用小于 2 位的量化权重时，获得具有先进性的精度。

Nov, 2022