Dec, 2022

利用多重联合因素增强中文文本分类的嵌入

TL;DR提出Moto模型以融合汉字的语义信息,包括偏旁部首、拼音码和五笔码以提高中文文本分类性能。通过对四项任务的广泛实验,该模型在中文新闻标题,复旦语料库和清华新闻上实现显著改善,F1得分最高可达0.8316,词性标注任务的准确率可达96.38%,文本分类任务的准确率可达0.9633。