Apr, 2022

Breaking Character: MRLs 是否真的只需要使用子词?

TL;DR对于语言中包含丰富词形的复杂语言,使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是,对于语义任务,基于子单元的 PLM 表现更好,这证实了基于子单元的分词作为许多语言的合理建模假设的潜力。