上下文位置编码：学会计算重要的东西

May, 2024

上下文位置编码：学会计算重要的东西

Contextual Position Encoding: Learning to Count What's Important

Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar

TL;DR提出了一种新的位置编码方法：上下文位置编码 (CoPE)，使得位置可以被上下文条件化，可以实现更一般的位置指定，例如参考第 $i$ 个特定词、名词或句子。该方法能够解决选择性复制、计数和翻转任务，并提高语言建模和编码任务的困惑度。

Abstract

The attention mechanism is a critical component of large language models (LLMs) that allows tokens in a sequence to interact with each other, but is order-invariant. Incorporating →

attention mechanism large language models position encoding contextual position encoding language modeling

发现论文，激发创造

位于中间：通过即插即用位置编码，语言模型更好地使用长上下文

本文介绍了一种名为多尺度位置编码（Ms-PoE）的简单而有效的插件式方法，用于增强大型语言模型（LLMs）处理位于上下文中部的相关信息的能力，并通过广泛的实验证明了该方法的有效性。

Mar, 2024

CAPE：用于长度推断的上下文自适应位置编码

提出了一种动态根据输入语境调整的上下文自适应位置编码方法，通过实验验证在真实世界数据集上改善了模型性能，提升了训练长度和长度泛化能力，同时保留了局部和反局部信息。

May, 2024

跨语言位置表示的自注意力

本文使用跨语言位置表示法，将自注意力网络中的位置编码扩展为双语感知潜在结构，利用括号转换语法（BTG）基于重排序信息，以鼓励自注意力网络学习双语对角线对齐，并通过 WMT'14 英语⇒德语，WAT'17 日语⇒英语，WMT'17 中英互译任务的实验结果验证，显著且一致地改善了翻译质量。

Apr, 2020

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022

增加遮挡时，词序很重要

本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响，发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加，并且没有位置编码的模型不能完成该任务，这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。

Nov, 2022

重新思考语言预训练中的位置编码

提出一种新的位置编码方法 TUPE，该方法通过将词的上下文相关性和位置相关性分开并采用不同的投影矩阵进行计算，并将它们相加来消除混杂和杂乱的关联。在广泛的实验和离线研究中，我们证明了该方法的有效性。

Jun, 2020

并行上下文编码的长文本语言建模

通过引入上下文扩展并行编码（CEPE）框架，可以将现有的仅解码的大型语言模型（LLMs）的上下文窗口扩展，使其能够更有效地处理长输入并且在检索增强应用中表现优异。

Feb, 2024

位置编码的局部性与对称性

位置编码（PEs）用于将单词顺序信息注入基于 Transformer 的语言模型中。本研究对双向遮蔽语言模型（BERT-style）中的位置编码进行了系统研究，揭示了其核心功能和与下游任务性能相关的两个常见特性（局部性和对称性），并对当前位置编码的弱点进行了定量评估。这些结果可为开发基于 Transformer 的语言模型的更好位置编码提供基础。

Oct, 2023

位置编码对 Transformer 中长度推广的影响

本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响，发现在一系列的推理和数学任务中，NoPE 的表现比其它方法更为优秀，而且无需额外计算。理论上，NoPE 能够代表绝对和相对位置嵌入，但在使用 SGD 训练时，它主要呈现 T5 相对位置嵌入的注意力模式。同时，scratchpad 并不总是有助于解决长度泛化问题，其格式对模型的性能有很大的影响。总之，本文的工作表明解码器 - only 的 Transformer 不一定需要显式的位置嵌入以在更长的序列上泛化良好。

May, 2023

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021