DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力
本文提出一种新的模型结构 DeBERTa,采用解缩融合模块和增强的掩膜解码器改进 BERT 和 RoBERTa 模型,在模型预训练和下游自然语言处理任务中显著提高效率和性能。它采用局部结构,实现了两种训练方法的密集耦合,不仅在 NLU 和 NLG 下游任务中取得明显好成绩,在 SuperGLUE 基准测试中也超过人类的得分。
Jun, 2020
本文介绍了一种修改的 transformer 编码器 --NarrowBERT,其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作,从而增加了掩码语言模型预训练的吞吐量。 此外,本文还显示,与 MNLI 等句子编码任务相比,NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍,性能降低最小(或没有),并且在 IMDB,亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。
Jan, 2023
本研究提出了一种新的预训练语言模型 DecBERT,通过引入因果注意力机制用于 BERT 模型的位置编码,证明其在自然语言处理任务中比传统方法更为有效,并通过 GLUE 基准测试取得了良好表现。
Apr, 2022
本文研究了自然语言处理中的 BERT 模型及其多语言版本 (mBERT),比较并探究了语言特定的 BERT 模型与 mBERT 在架构、数据领域和任务上的差异和共性,为读者提供了一个直观的综述和交互式展示网站。
Mar, 2020
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
通过使用增强解码的遮蔽自动编码器预训练,显著提高了稠密表示中输入标记的术语覆盖,从而实现了在大规模检索基准上的最先进的检索性能,无需任何额外参数,相比于使用增强解码的标准遮蔽自动编码器预训练速度提高了 67%。
Jan, 2024
本文旨在介绍中文 BERT 预训练语言模型的整词 Masking 策略以及一系列简单但有效的中文预训练语言模型,其中包括 MacBERT,提高了 RoBERTa 的性能,并通过十个中文 NLP 任务的广泛实验证明了 MacBERT 在很多 NLP 任务中可以达到最先进的性能。
Jun, 2019
本研究提出了一种通过加入轻量级适配器模块在 BERT 编码器和解码器之间 fine-tuning 来应对语言生成任务的问题,并在神经机器翻译任务上验证了该方法的有效性。
Oct, 2020
本文提出了一种基于预训练的编码器 - 解码器框架,使用 BERT 编码输入序列来生成输出序列,采用 Transformer-based 解码器生成草稿输出序列,并将其与原始输入序列结合使用,使用 BERT 生成的草稿表示来预测遮罩位置的优化单词,进而在文本摘要任务上实现了最新的技术水平。
Feb, 2019
本文研究如何将预训练的蒙面语言模型(例如 BERT)有效地纳入编码 - 解码模型,以进行语法错误纠正,并提出一种新的方法,在给定语法错误纠正语料库中对蒙面语言模型进行微调,并利用微调后的蒙面语言模型的输出作为语法错误纠正模型的额外特征,实现了蒙面语言模型的最大化利用,在 BEA-2019 和 CoNLL-2014 基准测试中获得了最好的性能表现。
May, 2020