汉语预训练语言模型中的分词粒度：字符、词语还是两者兼备？

Mar, 2023

汉语预训练语言模型中的分词粒度：字符、词语还是两者兼备？

Character, Word, or Both? Revisiting the Segmentation Granularity for Chinese Pre-trained Language Models

Xinnian Liang, Zefan Zhou, Hui Huang, Shuangzhi Wu, Tong Xiao...

TL;DR本文提出了一种混合粒度的中文BERT模型（MigBERT），通过同时考虑字符和词来学习其特征表示，并在各种中文NLP任务上进行了广泛的实验以评估现有的PLMs以及所提出的MigBERT，实验结果表明，MigBERT在所有这些任务中都实现了新的最佳表现，MigBERT还能与日语一起使用。

Abstract

pretrained language models (PLMs) have shown marvelous improvements across various nlp tasks. Most chinese plms simply treat an input text

发现论文，激发创造

中文分词的多字符嵌入

本篇论文提出一种采用多种字符嵌入的共享Bi-LSTM-CRF模型来进行中文分词，并在实验中证明此方法能够显著提高分词准确率，同时在AS和CityU语料库中取得了96.9和97.3的最优F1得分。

Aug, 2018

中文表征深度学习是否需要分词？

探讨了是否需要将中文文本分词为词语的问题，并对基于分词和不基于分词的神经网络模型在四个自然语言处理任务上进行了比较。研究发现，不基于分词的字符级模型在数据稀疏性和词汇量不足等复杂情况下更加鲁棒。

May, 2019

ZEN：基于N-gram表示增强的中文文本预训练编码器

本篇论文提出了基于BERT的中文文本编码器ZEN，使用N-gram表示法考虑不同字符组合，明确预训练并在字符编码器(BERT)的细调中进行单词或短语分界处理，使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现，同时在小语料库上进行ZEN的训练，也可以获得合理的性能并且可以应用于限定数据的场景。

Nov, 2019

使用单词对齐注意力增强预训练的汉字表示

文章提出了一种新的以词为基本单元的对齐注意力方法，用于解决原有以字符为基本单元的中文预训练模型无法充分利用词义信息的问题，并通过多源信息融合的方式解决了分词误差传递的潜在问题，实验结果表明该模型对于五种中文NLP基准任务能够带来显著提升。

Nov, 2019

重新审视中文自然语言处理预训练模型

本研究探讨了中文预训练语言模型的有效性，并向社区发布了中文预训练语言模型系列。我们还提出了一个简单但有效的模型MacBERT，该模型在多个方面优于RoBERTa，特别是掩蔽策略采用了MLM进行修正。我们在八个中文NLP任务上进行了大量实验，实验结果表明MacBERT在许多NLP任务上都可以达到最先进的性能，并提供了一些研究细节的发现，这可能有助于未来的研究。

Apr, 2020

中文BERT是否编码单词结构？

本文探究了中文BERT在注意力权重分布统计和探测任务方面的表现，发现其捕捉了单词信息，其中单词级别特征主要集中在中间表示层，在文本理解等下游任务中，词特征以不同的方式被应用。

Oct, 2020

Lattice-BERT: 在中文预训练语言模型中利用多粒度表示

该研究提出了一种新的中文预训练模型Lattice-BERT，使用字符和词语来构建格状结构，实现了多粒度的文本建模，在11个中文自然语言理解任务中取得了1.5%的平均增益，并在CLUE基准测试中达到了新的最优表现。

Apr, 2021

中文预训练语言模型的子字分词

为了利用中文语言系统中存在的字符下的语言信息，我们提出了一种基于SubChar(即SubCharacter)的分词方法，该方法通过将每个汉字转换为一个基于其字形或发音的短序列，再基于编码后的文本进行子词分割来构建词汇表，实验结果表明SubChar的分词器相比现有分词器有两个主要优势：它们可以将输入标记为更短的序列，从而提高计算效率；以发音为基础的SubChar分词器可以将中文同音字编码为相同的音译序列并产生相同的标记化输出，从而具有抗同音错误的鲁棒性。

Jun, 2021

利用词语语义丰富汉语预训练模型的字表示

本文提出了一种新的方法，利用单词结构并将词汇语义融入预训练模型的字符表示中，以加强单词信息的表达，通过词-字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能，并进一步证明了模型各组件的有效性。

Jul, 2022

带检索的分类方法及其解耦表示

本文提出了一种混合粒度的中文BERT模型（MigBERT），通过同时考虑字符和词，设计了学习字符和单词级表示的目标函数，在各种中文NLP任务上获得了新的SOTA性能，实验结果表明，单词语义比字符更丰富，而MigBERT也适用于日语。

Mar, 2023