Mar, 2023

汉语预训练语言模型中的分词粒度:字符、词语还是两者兼备?

TL;DR本文提出了一种混合粒度的中文 BERT 模型(MigBERT),通过同时考虑字符和词来学习其特征表示,并在各种中文 NLP 任务上进行了广泛的实验以评估现有的 PLMs 以及所提出的 MigBERT,实验结果表明,MigBERT 在所有这些任务中都实现了新的最佳表现,MigBERT 还能与日语一起使用。