本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
通过傅立叶分析和计算神经科学的最新发现,本研究引入一种新颖的位置编码方案,受到网格细胞的启发,利用嵌入到金字塔视觉变换器架构中的 GridPE 技术,提供了一个在任意高维空间中进行位置编码的统一框架,并在转换器的性能上显著提高表现。
Jun, 2024
提出了一种新的位置信息编码方法,使用神经常微分方法对非循环模型(如 Transformer)进行编码,并证明在翻译和理解任务中,该编码方法与已有编码方法相比具有更好的性能。
Mar, 2020
提出一种新的范式,使用 transformers 对视频中的目标位置进行编码,该模型 DST (position encoding) 以密集的像素方式编码了空间时间位置信息,并将其与变压器结合以进行多目标跟踪。
Oct, 2022
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
我们提出了一种基于数学基础的新位置编码方法,保证了不丢失输入序列的位置顺序信息,并且系统地改善了时间序列分类任务的预测性能。
May, 2024
该研究表明,预训练的大型语言模型使用傅里叶特征进行数字加法,其中 MLP 层主要利用低频特征近似答案的幅度,而注意力层主要利用高频特征进行模块化加法(例如计算答案是奇数还是偶数)。预训练对此机制至关重要,从头开始训练的模型只利用低频特征,导致准确性较低。引入预训练的标记嵌入到随机初始化的模型中可以提高其性能。总的来说,我们的分析表明,适当的预训练表示(例如傅里叶特征)可以为 Transformer 学习算法任务的精确机制。
使用快速傅里叶变换(FFT)可以有效加速具有相对位置编码(RPE)的 Transformer 模型中的注意力计算,并且适当使用相对位置编码可以缓解基准核化注意力的训练不稳定性问题。
Jun, 2021
我们介绍了一种新颖的位置编码策略,用于 Transformer 风格模型,解决了现有方法的不足之处。我们的框架提供了一种灵活的映射,从一个领域的代数规范到正交操作符的解释。该设计保留了源域的代数特性,确保模型满足所需的结构属性。我们的方案可以适应各种结构,包括序列、网格和树形结构,以及它们的组合。我们进行了一系列实验证明我们方法的实际适用性。结果表明,在没有超参数优化或任何 “任务搜索” 的情况下,性能可以达到或超过当前的最新水平。代码将在 github.com/konstantinosKokos/UnitaryPE 上提供。
Dec, 2023
本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020