Oct, 2024
IndicSentEval:多语言变换模型在印度语言中有效编码语言特性的研究
IndicSentEval: How Effectively do Multilingual Transformer Models encode
Linguistic Properties for Indic Languages?
TL;DR本研究解决了多语言变换模型在印度语言中的编码能力和鲁棒性问题,填补了现有研究仅集中在英语及BERT模型的空白。我们提出了一个新颖的多语言基准数据集IndicSentEval,并分析了9个多语言变换模型在6种印度语言中的表现,发现专门针对印度语言的模型更好地捕捉语言特性,但在某些干扰下,通用模型表现出更好的鲁棒性。这些发现有助于优化与印度语言相关的自然语言处理任务。