通过随机填充实现位置嵌入的令人沮丧的简单改进

May, 2023

通过随机填充实现位置嵌入的令人沮丧的简单改进

A Frustratingly Easy Improvement for Position Embeddings via Random Padding

Mingxu Tao, Yansong Feng, Dongyan Zhao

TL;DR本文提出了一种简单而有效的策略 Random Padding 来平衡位置嵌入的更新次数，从而在提取式问答的模型性能上获得显著提升。在训练模型对长文本进行评估时，特别是当模型在短文本上进行训练时，Random Padding 会表现得更加优异。

Abstract

position embeddings, encoding the positional relationships among tokens in text sequences, make great contributions to modeling local context features in Transformer-based pre-trained language models. However, in

position embeddings extractive question answering pre-trained language models random padding context lengths

发现论文，激发创造

使用更好的相对位置嵌入改进 Transformer 模型

本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法，通过增加查询、键和相对位置嵌入之间的交互，进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化，相比之前的位置嵌入方法，在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后，还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。

Sep, 2020

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022

随机位置编码增强 Transformer 的长度泛化

本研究发现，Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是，它们不能在任意长度序列上泛化，即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案，可以解决长序列位置编码失效的问题，并通过大规模实验，证明该方案可提高分类精度。

May, 2023

绝对位置嵌入的奇妙案例

使用 Transformer 语言模型中的绝对位置嵌入会导致对相对位置信息的过度依赖，从而使得模型在句子位置信息被移位时性能显著下降，这表明了使用绝对位置嵌入所建模 “相对位置信息” 的功效需要重新审视。

Oct, 2022

重新思考语言预训练中的位置编码

提出一种新的位置编码方法 TUPE，该方法通过将词的上下文相关性和位置相关性分开并采用不同的投影矩阵进行计算，并将它们相加来消除混杂和杂乱的关联。在广泛的实验和离线研究中，我们证明了该方法的有效性。

Jun, 2020

位置编码学到了什么？一项关于预训练语言模型位置编码的实证研究

本文通过特征级别分析和大量实证研究主流预训练位置嵌入对 Transformer 的影响，从而为特定任务选择适当的位置编码函数提供新的见解。

Oct, 2020

位置编码对 Transformer 中长度推广的影响

本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响，发现在一系列的推理和数学任务中，NoPE 的表现比其它方法更为优秀，而且无需额外计算。理论上，NoPE 能够代表绝对和相对位置嵌入，但在使用 SGD 训练时，它主要呈现 T5 相对位置嵌入的注意力模式。同时，scratchpad 并不总是有助于解决长度泛化问题，其格式对模型的性能有很大的影响。总之，本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。

May, 2023

问答系统中的位置偏差

本研究发现在训练集中，答案位置分布呈高度偏斜时，使用位置预测作为答案的提取型问答模型容易学习到虚假的位置线索，并且在不同位置上无法提供正确的答案。因此，对于 BiDAF 和 BERT 等受到位置偏见影响的模型，我们实现了多种消除位置偏见的方法，发现使用答案先验分布作为偏见模型非常有效，在受到偏见的 SQuAD 数据集上，BERT 性能从 37.48% 提高到 81.64%。

Apr, 2020

增加遮挡时，词序很重要

本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响，发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加，并且没有位置编码的模型不能完成该任务，这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。

Nov, 2022