Feb, 2024

SemRel2024:14 种语言的语义文本相关数据集收集

TL;DR探索和量化语义相关性对于表示语言至关重要,它对各种 NLP 任务具有重要意义,包括提供关于大型语言模型能力和性能的见解。本文介绍了 SemRel,这是一个由母语为 14 种语言的本土人士进行注释的新的语义相关性数据集收集项目。每个实例都是一个句子对,并与表示两个句子之间语义文本相关性程度的分数相关联。分数是通过比较性注释框架获得的。我们描述了数据收集和注释过程、构建数据集时的相关挑战以及它们在 NLP 中的影响和实用性。我们还报告了对每种语言以及不同语言之间进行的实验。