带检索的分类方法及其解耦表示

Mar, 2023

Retrieval-Augmented Classification with Decoupled Representation

Xinnian Liang, Shuangzhi Wu, Hui Huang, Jiaqi Bai, Chao Bian...

TL;DR本文提出了一种混合粒度的中文BERT模型（MigBERT），通过同时考虑字符和词，设计了学习字符和单词级表示的目标函数，在各种中文NLP任务上获得了新的SOTA性能，实验结果表明，单词语义比字符更丰富，而MigBERT也适用于日语。

Abstract

pretrained language models (PLMs) have shown marvelous improvements across various nlp tasks. Most Chinese PLMs simply treat an input text as a sequence of characters, and completely ignore word information. Alth

发现论文，激发创造

组件增强的汉字嵌入

本文创新性地发展了两种增强中文字符嵌入模型及其二元模型扩展，它们通过探索中文字符的组合，来有效地捕捉语义信息并已成功地应用于词语相似度和文本分类任务。

Aug, 2015

中文表征深度学习是否需要分词？

探讨了是否需要将中文文本分词为词语的问题，并对基于分词和不基于分词的神经网络模型在四个自然语言处理任务上进行了比较。研究发现，不基于分词的字符级模型在数据稀疏性和词汇量不足等复杂情况下更加鲁棒。

May, 2019

ZEN：基于N-gram表示增强的中文文本预训练编码器

本篇论文提出了基于BERT的中文文本编码器ZEN，使用N-gram表示法考虑不同字符组合，明确预训练并在字符编码器(BERT)的细调中进行单词或短语分界处理，使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现，同时在小语料库上进行ZEN的训练，也可以获得合理的性能并且可以应用于限定数据的场景。

Nov, 2019

使用单词对齐注意力增强预训练的汉字表示

文章提出了一种新的以词为基本单元的对齐注意力方法，用于解决原有以字符为基本单元的中文预训练模型无法充分利用词义信息的问题，并通过多源信息融合的方式解决了分词误差传递的潜在问题，实验结果表明该模型对于五种中文NLP基准任务能够带来显著提升。

Nov, 2019

重新审视中文自然语言处理预训练模型

本研究探讨了中文预训练语言模型的有效性，并向社区发布了中文预训练语言模型系列。我们还提出了一个简单但有效的模型MacBERT，该模型在多个方面优于RoBERTa，特别是掩蔽策略采用了MLM进行修正。我们在八个中文NLP任务上进行了大量实验，实验结果表明MacBERT在许多NLP任务上都可以达到最先进的性能，并提供了一些研究细节的发现，这可能有助于未来的研究。

Apr, 2020

中文BERT是否编码单词结构？

本文探究了中文BERT在注意力权重分布统计和探测任务方面的表现，发现其捕捉了单词信息，其中单词级别特征主要集中在中间表示层，在文本理解等下游任务中，词特征以不同的方式被应用。

Oct, 2020

CharBERT：基于字符的预训练语言模型

本文提出的CharBERT模型是一个字符感知的预训练语言模型，通过新颖的异构交互模块将字符表示和子词表示进行融合，并提供了一种名为NLM的无监督字符表示学习的新的预训练任务，实验结果表明该模型能够同时提高PLM的性能和鲁棒性。

Nov, 2020

Lattice-BERT: 在中文预训练语言模型中利用多粒度表示

该研究提出了一种新的中文预训练模型Lattice-BERT，使用字符和词语来构建格状结构，实现了多粒度的文本建模，在11个中文自然语言理解任务中取得了1.5%的平均增益，并在CLUE基准测试中达到了新的最优表现。

Apr, 2021

利用词语语义丰富汉语预训练模型的字表示

本文提出了一种新的方法，利用单词结构并将词汇语义融入预训练模型的字符表示中，以加强单词信息的表达，通过词-字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能，并进一步证明了模型各组件的有效性。

Jul, 2022

汉语预训练语言模型中的分词粒度：字符、词语还是两者兼备？

本文提出了一种混合粒度的中文BERT模型（MigBERT），通过同时考虑字符和词来学习其特征表示，并在各种中文NLP任务上进行了广泛的实验以评估现有的PLMs以及所提出的MigBERT，实验结果表明，MigBERT在所有这些任务中都实现了新的最佳表现，MigBERT还能与日语一起使用。

Mar, 2023