俄语语义相关性的人工和机器判断
该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述,提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法,并通过对 19 个团队的 105 个提交信息的分析,证明英语中成功的方法也可以直接适用于俄语。
Mar, 2018
本文介绍了一个基于模拟瑞尔兹(SimRelUz)数据集的语义模型评估数据集,用于评估语义模型的鲁棒性和低资源语言的语义关系。
May, 2022
本篇论文提出了一组新的 Tatar 语评估资源,该语言属于土耳其语系,主要分布在俄罗斯的塔塔尔斯坦共和国,该资源包含用于评估语义模型的相似性和相关性数据集,以及包含类比问题的模型数据集,用于探索语言建模的语义、语法和形态方面。我们使用这些资源对两种语言使用最先进的词嵌入模型进行评估,分析了其性能比较。
Mar, 2019
本文评估 Web 资源的语义相关性,集中讨论了基于知识的方法作为结构型方法的替代,主要依赖于知识图谱的可用性,通过对 10 个已有方法的选择以及它们的组织方式(邻接资源、三元组模式和三元组权重方法)进行实现和评估,通过使用 DBpedia 作为 RDF 知识图谱的参考,为了得到可比较的实验结果,这些方法被同时应用于相同的 DBpedia 版本和 14 个著名的黄金数据集,并根据实验结果与人类判断之间的相关性值,得出权衡 RDF 三元组和评估比较资源间的所有直接路径的组合策略是计算 DBpedia 语义相关性的最佳策略。
Aug, 2023
本文介绍一个新的数据集 ——STR-2022,该数据集包含 5,500 个英文句子对,用比较注释框架手动注释,得出精细的分数,用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。
Oct, 2021
探索和量化语义相关性对于表示语言至关重要,它对各种 NLP 任务具有重要意义,包括提供关于大型语言模型能力和性能的见解。本文介绍了 SemRel,这是一个由母语为 14 种语言的本土人士进行注释的新的语义相关性数据集收集项目。每个实例都是一个句子对,并与表示两个句子之间语义文本相关性程度的分数相关联。分数是通过比较性注释框架获得的。我们描述了数据收集和注释过程、构建数据集时的相关挑战以及它们在 NLP 中的影响和实用性。我们还报告了对每种语言以及不同语言之间进行的实验。
Feb, 2024
本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法:自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。
Apr, 2017
本文介绍了一个基于 NLP 资源的语义相似性数据集,用于填补心理语言学研究中的空白,并通过提供大量受词汇处理中起重要作用的变量控制的名词对的语义相似性的各种量化方式。
Apr, 2023
本文提出了一种基于词库的、测量文本语义相似性的新方法,称为 Omiotis,它利用了单词之间的语义相关性,将其扩展到文本之间的相关性测量,并在句子相似性和释义识别任务中进行了实验验证,结果显示该方法在选定任务及数据集上表现优异,且与基于语料库和混合方法相媲美,优于所有基于词库的语义相似性方法。
Jan, 2014
该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法,在 SemRel-2024 任务中取得了显著的结果,包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名,以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。
May, 2024