COLINGSep, 2022

MaxMatch-Dropout: WordPiece 的子词规范化

TL;DR本文提出了一种用于 WordPiece 的子词规则化方法,使用最大匹配算法进行分词,并通过 MaxMatch-Dropout 方法实现对 BERT-base 等预训练语言模型的微调,实验证明该方法在文本分类和机器翻译任务以及其他子词规则化方法中的性能表现明显优于其他方法,同时还进行了 SentencePiece (Unigram)、BPE-Dropout 和 MaxMatch-Dropout 规则化方法的比较分析。