Apr, 2024

MaiNLP 在 SemEval-2024 任务 1 中的表现:跨语言文本相关性中的源语言选择分析

TL;DR本文介绍了我们为 SemEval-2024 任务 1 所开发的系统:语义文本相关性(STR),在 Track C:跨语言下。该任务的目标是在没有直接监督(即零 - shot 跨语言转移)的情况下,检测给定目标语言中两个句子的语义相关性。为此,我们关注两个不同预训练语言模型:XLM-R 和 Furina 上的不同源语言选择策略。我们通过以下实验:1)单源转移并基于类型学相似性选择源语言,2)用两个最近邻源语言扩充英语训练数据,以及 3)多源转移,我们将所有训练语言与同一语系的语言进行比较。我们还研究了基于机器翻译的数据增强和脚本差异的影响。我们的提交在 C8(Kinyarwanda)测试集中取得了第一名。