UMBCLU 在 SemEval-2024 Task 1A 和 1C 的文本语义相关性研究:使用和不使用机器翻译
本文提出了在 SemEval-2024 Task 1 中开发的系统:用于非洲和亚洲语言的语义文本相关性。该共享任务旨在测量句子对之间的语义文本相关性,重点关注一系列少数语言。我们在这项工作中提出了使用机器翻译进行数据增强来解决有限训练数据的低资源挑战。此外,我们对未标记任务数据进行任务自适应预训练,以弥合预训练和任务适应之间的差距。对于模型训练,我们研究了完全微调和基于适配器的微调,并采用适配器框架实现了有效的零次跨语言迁移。在共享任务中,我们取得了具有竞争力的结果:我们的系统在子任务 A(监督学习)和子任务 C(跨语言迁移)中排名最高。
Apr, 2024
本文介绍了我们为 SemEval-2024 任务 1 所开发的系统:语义文本相关性(STR),在 Track C:跨语言下。该任务的目标是在没有直接监督(即零 - shot 跨语言转移)的情况下,检测给定目标语言中两个句子的语义相关性。为此,我们关注两个不同预训练语言模型:XLM-R 和 Furina 上的不同源语言选择策略。我们通过以下实验:1)单源转移并基于类型学相似性选择源语言,2)用两个最近邻源语言扩充英语训练数据,以及 3)多源转移,我们将所有训练语言与同一语系的语言进行比较。我们还研究了基于机器翻译的数据增强和脚本差异的影响。我们的提交在 C8(Kinyarwanda)测试集中取得了第一名。
Apr, 2024
通过挖掘句子之间的深层联系,我们在马拉地语、印地语、西班牙语和英语中探索了语义文本相关性(STR),以在各种学习范式中利用不同的语言模型。结果表明,我们的方法很有效,并且希望在多语言 STR 领域中,特别是对于资源匮乏的语言,继续激发进一步的研究。
Apr, 2024
该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法,在 SemRel-2024 任务中取得了显著的结果,包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名,以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。
May, 2024
该研究描述了我们为 SemEval-2024 任务 1 开发的系统:语义文本相关性。该挑战主要关注在包括亚洲和非洲的高资源和低资源语言在内的 14 种语言中自动检测句子对相关性的程度。我们团队参与了两个子任务,包括监督式轨道和非监督式轨道。本文主要关注基于 BERT 的对比学习和基于相似度度量的方法,用于监督式轨道,并探索无监督式轨道中的自动编码器。同时,该研究还旨在使用负采样策略创建一个双词相关性语料库,从而生成精炼的词嵌入。
Apr, 2024
本文描述了 BUT-FIT 团队在 SemEval 2020 任务 4(常识验证和解释)中的工作,涉及三个子任务:A、B、C。其中,在子任务 A 和 B 中,我们的提交基于预训练语言表示模型和数据增强。我们尝试了使用多语言模型和机器翻译数据集或翻译模型输入来解决另一种语言(捷克语)的任务。在子任务 C 中,我们的提交基于预训练序列到序列模型,排名第一。我们还对所有子任务进行了误差和数据集分析,并提出了我们的发现。
Aug, 2020
该研究通过使用六种语言模型并采用迁移学习和微调技术,开发了用于 14 种不同非洲语言情感分析的多语言模型,最终在开发和测试数据中取得了 F1 得分。结果表明跨多种语言的情感分析可以通过迁移学习和微调技术实现,该方法可以应用于其他语言和领域的情感分析任务。
Apr, 2023
本研究论文介绍了 MasonTigers 参与 SemEval-2024 任务 1 的成果,该任务涵盖了 14 种不同语言的监督学习、无监督学习和跨语言方法。MasonTigers 是两个参与了所有语言的团队之一,在三个任务中取得了从第 11 到第 21 名的排名(Track A)、第 1 到第 8 名的排名(Track B)和第 5 到第 12 名的排名(Track C)。我们的最佳方法结合了统计机器学习方法的集成以及语言特定的 BERT 模型和句子转换器。
Mar, 2024
研究了句子的语义文本相似度,旨在评估现有模型的性能和限制,并提出一个新的 STS 基准用于对语义表示的研究。
Jul, 2017