Apr, 2022

一种无需词汇表的多语言神经标记器,用于端到端任务学习

TL;DR本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该神经分词器能显著提升多语言(NLI)和混合语言情感分析等任务的性能并且具有较强的鲁棒性。