Mar, 2023

汉语预训练语言模型中的分词粒度:字符、词语还是两者兼备?

TL;DR本文提出了一种混合粒度的中文BERT模型(MigBERT),通过同时考虑字符和词来学习其特征表示,并在各种中文NLP任务上进行了广泛的实验以评估现有的PLMs以及所提出的MigBERT,实验结果表明,MigBERT在所有这些任务中都实现了新的最佳表现,MigBERT还能与日语一起使用。