Oct, 2023

是否对文本进行标记化:跨语言转移的文本表示的比较研究

TL;DR选择一个合适的分词方案通常是低资源跨语言转移的瓶颈。为了理解文本表示选择的后续影响,我们对具有不同文本表示模式的语言模型进行了比较分析,包括 2 个基于分词的模型(BERT,mBERT)、一个基于图像的模型(PIXEL)和一个基于字符级别的模型(CANINE)。通过提出的评分语言系数(LQ),我们在 19 种源语言和 133 种目标语言上执行了涵盖 POS 标记、依赖解析和 NER 的实验证明了基于图像的模型在语言密切相关且具有相似视觉脚本的情况下,在跨语言转移中表现出色。然而,在偏向于词义(POS,NER)的任务中,基于分词的模型表现优越。此外,在强依赖于词汇关系的依赖解析任务中,具有字符级别关注的模型胜过其他模型。最后,根据我们的发现,我们提出了一个基于我们的研究成果的建议方案,以指导根据任务和语言要求进行模型选择。