SemEval 任务 1: 非洲和亚洲语言的语义文本相关度
使用大型语言模型,开发了针对非洲和亚洲语言的语义文本相关性模型 TranSem,并在 SemEval-2024 任务 1 中取得了不错的成绩。
Feb, 2024
通过挖掘句子之间的深层联系,我们在马拉地语、印地语、西班牙语和英语中探索了语义文本相关性(STR),以在各种学习范式中利用不同的语言模型。结果表明,我们的方法很有效,并且希望在多语言 STR 领域中,特别是对于资源匮乏的语言,继续激发进一步的研究。
Apr, 2024
探索和量化语义相关性对于表示语言至关重要,它对各种 NLP 任务具有重要意义,包括提供关于大型语言模型能力和性能的见解。本文介绍了 SemRel,这是一个由母语为 14 种语言的本土人士进行注释的新的语义相关性数据集收集项目。每个实例都是一个句子对,并与表示两个句子之间语义文本相关性程度的分数相关联。分数是通过比较性注释框架获得的。我们描述了数据收集和注释过程、构建数据集时的相关挑战以及它们在 NLP 中的影响和实用性。我们还报告了对每种语言以及不同语言之间进行的实验。
Feb, 2024
本文介绍了我们为 SemEval-2024 任务 1 所开发的系统:语义文本相关性(STR),在 Track C:跨语言下。该任务的目标是在没有直接监督(即零 - shot 跨语言转移)的情况下,检测给定目标语言中两个句子的语义相关性。为此,我们关注两个不同预训练语言模型:XLM-R 和 Furina 上的不同源语言选择策略。我们通过以下实验:1)单源转移并基于类型学相似性选择源语言,2)用两个最近邻源语言扩充英语训练数据,以及 3)多源转移,我们将所有训练语言与同一语系的语言进行比较。我们还研究了基于机器翻译的数据增强和脚本差异的影响。我们的提交在 C8(Kinyarwanda)测试集中取得了第一名。
Apr, 2024
该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法,在 SemRel-2024 任务中取得了显著的结果,包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名,以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。
May, 2024
本文介绍一个新的数据集 ——STR-2022,该数据集包含 5,500 个英文句子对,用比较注释框架手动注释,得出精细的分数,用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。
Oct, 2021
本文提出了在 SemEval-2024 Task 1 中开发的系统:用于非洲和亚洲语言的语义文本相关性。该共享任务旨在测量句子对之间的语义文本相关性,重点关注一系列少数语言。我们在这项工作中提出了使用机器翻译进行数据增强来解决有限训练数据的低资源挑战。此外,我们对未标记任务数据进行任务自适应预训练,以弥合预训练和任务适应之间的差距。对于模型训练,我们研究了完全微调和基于适配器的微调,并采用适配器框架实现了有效的零次跨语言迁移。在共享任务中,我们取得了具有竞争力的结果:我们的系统在子任务 A(监督学习)和子任务 C(跨语言迁移)中排名最高。
Apr, 2024
该研究描述了我们为 SemEval-2024 任务 1 开发的系统:语义文本相关性。该挑战主要关注在包括亚洲和非洲的高资源和低资源语言在内的 14 种语言中自动检测句子对相关性的程度。我们团队参与了两个子任务,包括监督式轨道和非监督式轨道。本文主要关注基于 BERT 的对比学习和基于相似度度量的方法,用于监督式轨道,并探索无监督式轨道中的自动编码器。同时,该研究还旨在使用负采样策略创建一个双词相关性语料库,从而生成精炼的词嵌入。
Apr, 2024
研究了句子的语义文本相似度,旨在评估现有模型的性能和限制,并提出一个新的 STS 基准用于对语义表示的研究。
Jul, 2017
本研究论文介绍了 MasonTigers 参与 SemEval-2024 任务 1 的成果,该任务涵盖了 14 种不同语言的监督学习、无监督学习和跨语言方法。MasonTigers 是两个参与了所有语言的团队之一,在三个任务中取得了从第 11 到第 21 名的排名(Track A)、第 1 到第 8 名的排名(Track B)和第 5 到第 12 名的排名(Track C)。我们的最佳方法结合了统计机器学习方法的集成以及语言特定的 BERT 模型和句子转换器。
Mar, 2024