通过减少表示混淆实现更好的预训练
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
提出一种新的位置编码方法 TUPE,该方法通过将词的上下文相关性和位置相关性分开并采用不同的投影矩阵进行计算,并将它们相加来消除混杂和杂乱的关联。在广泛的实验和离线研究中,我们证明了该方法的有效性。
Jun, 2020
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略,可以提高 NLP、语音和视觉领域的性能,并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。
Jul, 2022
本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示,比绝对位置表示获得了更好的机器翻译结果。同时,将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。
Mar, 2018
本研究探讨了基于因果变换的语言模型(LMs),例如 GPT-3,需要某种形式的位置编码,例如位置嵌入。然而,我们发现在没有任何显式位置编码的情况下,这样的 LM 与标准模型仍然具有竞争力,这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明,这种模型通过网络获取隐含的绝对位置概念,从而有效弥补了缺失的信息。我们推测,因果注意力使模型能够推断每个令牌可以关注的前任数,从而近似其绝对位置。我们的发现表明,因果 LMs 除了显式的定位机制外,还可以从因果掩码的影响中推导出位置意识。
Mar, 2022
本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响,发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加,并且没有位置编码的模型不能完成该任务,这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。
Nov, 2022
该研究探讨了卷积和自注意力在自然语言任务中的关系,提出了一种将卷积融合到自注意力中的方法,并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。
Jun, 2021
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022