Transformers 中的位置信息:概述
本文通过特征级别分析和大量实证研究主流预训练位置嵌入对 Transformer 的影响,从而为特定任务选择适当的位置编码函数提供新的见解。
Oct, 2020
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
介绍了 Transformer 基本概念,描述了标准 Transformer 架构,包括一系列模型细化和常见应用,主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想,从而揭示了这些模型的优势和局限性。
Nov, 2023
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略,可以提高 NLP、语音和视觉领域的性能,并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。
Jul, 2022
本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响,发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加,并且没有位置编码的模型不能完成该任务,这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。
Nov, 2022
本文研究了如何使用 Transformers 提取和利用源代码中的句法信息,完成代码自动补全、函数命名和 bug 修复等任务,实现了更好的模型性能。
Oct, 2020
该论文介绍了一种针对变压器架构的位置编码方法,使用地理位置信息的输入组件,通过球面坐标定制的位置编码方法。与传统的语言序列不同,这些地理位置的相对顺序不如地理坐标本身重要,为了在嵌入空间中保持真实世界距离和距离的平衡,该方法基于 Rotary Position Embedding 结构进行设计。
Mar, 2024
该论文通过对 NLP 的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查,旨在确定当前 NLP 技术对可持续社会的贡献,并为未来研究奠定基础。
May, 2024