DecBERT：利用因果性注意力掩码增强 BERT 的语言理解能力

ACLApr, 2022

DecBERT：利用因果性注意力掩码增强 BERT 的语言理解能力

DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks

Ziyang Luo, Yadong Xi, Jing Ma, Zhiwei Yang, Xiaoxi Mao...

TL;DR本研究提出了一种新的预训练语言模型 DecBERT，通过引入因果注意力机制用于 BERT 模型的位置编码，证明其在自然语言处理任务中比传统方法更为有效，并通过 GLUE 基准测试取得了良好表现。

Abstract

Since 2017, the transformer-based models play critical roles in various downstream Natural Language Processing tasks. However, a common limitation of the attention mechanism utilized in Transformer Encoder is tha

transformer-based models attention mechanism position encoding pre-trained language model glue benchmark

发现论文，激发创造

DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力

提出了多个增强的解码器设计，并引入了 DrBERT（经过解码器优化的 BERT）作为一种新方法进行模型训练，通过微调对原始 BERT 模型的解码器进行改进，有效提高了模型性能而不增加推理时间和资源使用。

Jan, 2024

DeBERTa: 解码增强的 BERT（具有分离的注意力机制）

本文提出一种新的模型结构 DeBERTa，采用解缩融合模块和增强的掩膜解码器改进 BERT 和 RoBERTa 模型，在模型预训练和下游自然语言处理任务中显著提高效率和性能。它采用局部结构，实现了两种训练方法的密集耦合，不仅在 NLU 和 NLG 下游任务中取得明显好成绩，在 SuperGLUE 基准测试中也超过人类的得分。

Jun, 2020

StableMask：在仅使用解码器的 Transformer 中优化因果掩码

通过改进因果掩码的方法，提出了 StableMask，解决了 decoder-only Transformer 架构中的限制，并在语言模型中得到了显著的增强。

Feb, 2024

仍可学习位置信息的 Transformer 语言模型无需位置编码

本研究探讨了基于因果变换的语言模型（LMs），例如 GPT-3，需要某种形式的位置编码，例如位置嵌入。然而，我们发现在没有任何显式位置编码的情况下，这样的 LM 与标准模型仍然具有竞争力，这一现象在不同的数据集、模型大小和序列长度中是鲁棒的。进一步实验表明，这种模型通过网络获取隐含的绝对位置概念，从而有效弥补了缺失的信息。我们推测，因果注意力使模型能够推断每个令牌可以关注的前任数，从而近似其绝对位置。我们的发现表明，因果 LMs 除了显式的定位机制外，还可以从因果掩码的影响中推导出位置意识。

Mar, 2022

注意力可以反映句法结构 (如果你允许)

本研究通过对 18 种语言进行多语言 BERT 的解码实验，以测试依存句法是否反映在注意力模式中的普适性，并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调，结果表明注意力模式可以代表语言结构。

Jan, 2021

增加遮挡时，词序很重要

本研究探讨了在 Transformer-based 神经语言模型中移除位置编码的影响，发现掩码语言建模任务中位置信息的重要性随着掩码数量的增加而增加，并且没有位置编码的模型不能完成该任务，这揭示了 Transformers 通过位置编码捕捉语言的顺序敏感方面的直接关系。

Nov, 2022

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

使用混合池化网络和 Drop Mask 改进 BERT

本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型，并提出了一种简单的 DropMask 方法，用于解决预训练和微调之间的不匹配问题。实验表明，HybridBERT 在预训练和迁移学习中均优于 BERT，并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。

Jul, 2023

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022

基于 Transformer 的机器翻译中固定编码器自注意力模式

使用简单固定的关注模式替换 Transformer 中编码器层的大多数注意力头对神经机器翻译的质量没有影响，并且在资源匮乏的情况下，甚至可以将 BLEU 评分提高 3 个点。

Feb, 2020