带检索的分类方法及其解耦表示
探讨了是否需要将中文文本分词为词语的问题,并对基于分词和不基于分词的神经网络模型在四个自然语言处理任务上进行了比较。研究发现,不基于分词的字符级模型在数据稀疏性和词汇量不足等复杂情况下更加鲁棒。
May, 2019
本篇论文提出了基于BERT的中文文本编码器ZEN,使用N-gram表示法考虑不同字符组合,明确预训练并在字符编码器(BERT)的细调中进行单词或短语分界处理,使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现,同时在小语料库上进行ZEN的训练,也可以获得合理的性能并且可以应用于限定数据的场景。
Nov, 2019
文章提出了一种新的以词为基本单元的对齐注意力方法,用于解决原有以字符为基本单元的中文预训练模型无法充分利用词义信息的问题,并通过多源信息融合的方式解决了分词误差传递的潜在问题,实验结果表明该模型对于五种中文NLP基准任务能够带来显著提升。
Nov, 2019
本研究探讨了中文预训练语言模型的有效性,并向社区发布了中文预训练语言模型系列。我们还提出了一个简单但有效的模型MacBERT,该模型在多个方面优于RoBERTa,特别是掩蔽策略采用了MLM进行修正。我们在八个中文NLP任务上进行了大量实验,实验结果表明MacBERT在许多NLP任务上都可以达到最先进的性能,并提供了一些研究细节的发现,这可能有助于未来的研究。
Apr, 2020
本文探究了中文BERT在注意力权重分布统计和探测任务方面的表现,发现其捕捉了单词信息,其中单词级别特征主要集中在中间表示层,在文本理解等下游任务中,词特征以不同的方式被应用。
Oct, 2020
本文提出的CharBERT模型是一个字符感知的预训练语言模型,通过新颖的异构交互模块将字符表示和子词表示进行融合,并提供了一种名为NLM的无监督字符表示学习的新的预训练任务,实验结果表明该模型能够同时提高PLM的性能和鲁棒性。
Nov, 2020
该研究提出了一种新的中文预训练模型Lattice-BERT,使用字符和词语来构建格状结构,实现了多粒度的文本建模,在11个中文自然语言理解任务中取得了1.5%的平均增益,并在CLUE基准测试中达到了新的最优表现。
Apr, 2021
本文提出了一种新的方法,利用单词结构并将词汇语义融入预训练模型的字符表示中,以加强单词信息的表达,通过词-字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能,并进一步证明了模型各组件的有效性。
Jul, 2022
本文提出了一种混合粒度的中文BERT模型(MigBERT),通过同时考虑字符和词来学习其特征表示,并在各种中文NLP任务上进行了广泛的实验以评估现有的PLMs以及所提出的MigBERT,实验结果表明,MigBERT在所有这些任务中都实现了新的最佳表现,MigBERT还能与日语一起使用。
Mar, 2023