May, 2023

CompoundPiece:评估并提高语言模型的分解复合能力

TL;DR本文旨在通过构建一个数据集研究跨语言中的复合词问题,发现基于大型语言模型的分解表现不佳,并提出了一种分解训练方法 —— 完全自我监督的训练方法,成功地构建了一种更好的分解模型,同时使用 CompundPiece 对复合词进行分词更佳。