ACLJun, 2023

脚本连续语言中不同的分词器在下游任务中的表现?:以日语为例的案例研究

TL;DR本文旨在研究分词器对预训练语言模型在 scriptio continua 语言(如日语)下游性能的影响,结果表明对于任何类型的任务,使用 Byte-Pair-Encoding 或 Unigram 作为子词分割器都比 WordPiece 更佳,并且每个下游任务都有一个不同的最佳形态分析器。