通过减少表示混淆实现更好的预训练

ACLOct, 2022

通过减少表示混淆实现更好的预训练

Better Pre-Training by Reducing Representation Confusion

Haojie Zhang, Mingfei Liang, Ruobing Xie, Zhenlong Sun, Bo Zhang...

TL;DR本文重新研究了基于转换器的预训练语言模型，并找出了位置编码和模型表示中的两种不同类型的信息混淆，提出了 DDRP 编码和 MTH 预训练目标来改进预训练语言模型，并通过对 GLUE 基准测试的大量实验和消融研究表明了这种改进方法的有效性。

Abstract

In this work, we revisit the transformer-based pre-trained language models and identify two different types of information confusion in position encoding and →

transformer-based pre-trained language models position encoding model representations ddrp mth

发现论文，激发创造

语音识别和直接翻译的相对位置编码

通过在自注意力网络中采用相对位置编码方案，我们成功地让 Transformer 模型适应了语音数据的分散分布特点，并在 Switchboard 基准测试中获得了最佳识别结果，也在 MuST-C 语音翻译基准测试中获得了最佳出版结果，并且我们的模型能够更好地利用合成数据，并适应语音翻译的变量句子分割质量。

May, 2020

重新思考语言预训练中的位置编码

提出一种新的位置编码方法 TUPE，该方法通过将词的上下文相关性和位置相关性分开并采用不同的投影矩阵进行计算，并将它们相加来消除混杂和杂乱的关联。在广泛的实验和离线研究中，我们证明了该方法的有效性。

Jun, 2020

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

文本编码器预训练的相对位置预测

通过相对位置编码范式在 NLP 中创建相对标签来实现自我监督学习，以展示在下游任务表现方面卓越的预训练。

Feb, 2022

定位预测作为一种有效的预训练策略

本文提出了一种新颖的、简单的、基于位置预测的 Transformer 自监督预训练策略，可以提高 NLP、语音和视觉领域的性能，并使不使用位置嵌入的 Transformers 超越使用完整位置信息的 Transformers。

Jul, 2022

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018

仍可学习位置信息的 Transformer 语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果 LMs 除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

增加遮挡时，词序很重要

本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响，发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加，并且没有位置编码的模型不能完成该任务，这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。

Nov, 2022

卷积与自注意力：重新解释预训练语言模型中的相对位置

该研究探讨了卷积和自注意力在自然语言任务中的关系，提出了一种将卷积融合到自注意力中的方法，并使用 BERT 在多个下游任务上验证了卷积相对于绝对位置嵌入的性能优势。

Jun, 2021

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022