俄语语义相关性的人工和机器判断

Aug, 2017

俄语语义相关性的人工和机器判断

Human and Machine Judgements for Russian Semantic Relatedness

Alexander Panchenko, Dmitry Ustalov, Nikolay Arefyev, Denis Paperno, Natalia Konstantinova...

TL;DR本文介绍了为俄语语义相关性提供 5 种不同规模和目的的语言资源，其中四个旨在评估计算语义相关性的系统，另一个旨在生成第一个俄语开放的分布式词库，其中包含了大规模的众包研究表明其高准确性。

Abstract

semantic relatedness of terms represents similarity of meaning by a numerical score. On the one hand, humans easily make judgments about semantic relatedness. On the other hand, this kind of information is useful in language processing systems. While →

发现论文，激发创造

RUSSE: 俄语语义相似性首个研讨会

该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述，提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法，并通过对 19 个团队的 105 个提交信息的分析，证明英语中成功的方法也可以直接适用于俄语。

Mar, 2018

SimRelUz：一份用于乌兹别克语语义评估的相似度和相关性评分数据集

本文介绍了一个基于模拟瑞尔兹（SimRelUz）数据集的语义模型评估数据集，用于评估语义模型的鲁棒性和低资源语言的语义关系。

May, 2022

SART - 鞑靼语相似性、类比和相关性：词向量评估的新基准数据集

本篇论文提出了一组新的 Tatar 语评估资源，该语言属于土耳其语系，主要分布在俄罗斯的塔塔尔斯坦共和国，该资源包含用于评估语义模型的相似性和相关性数据集，以及包含类比问题的模型数据集，用于探索语言建模的语义、语法和形态方面。我们使用这些资源对两种语言使用最先进的词嵌入模型进行评估，分析了其性能比较。

Mar, 2019

DBpedia 中的语义相关性：比较性和实验性评估

本文评估 Web 资源的语义相关性，集中讨论了基于知识的方法作为结构型方法的替代，主要依赖于知识图谱的可用性，通过对 10 个已有方法的选择以及它们的组织方式（邻接资源、三元组模式和三元组权重方法）进行实现和评估，通过使用 DBpedia 作为 RDF 知识图谱的参考，为了得到可比较的实验结果，这些方法被同时应用于相同的 DBpedia 版本和 14 个著名的黄金数据集，并根据实验结果与人类判断之间的相关性值，得出权衡 RDF 三元组和评估比较资源间的所有直接路径的组合策略是计算 DBpedia 语义相关性的最佳策略。

Aug, 2023

句子语义相关的原因：一个文本相关性数据集和实证研究

本文介绍一个新的数据集 ——STR-2022，该数据集包含 5,500 个英文句子对，用比较注释框架手动注释，得出精细的分数，用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。

Oct, 2021

SemRel2024：14 种语言的语义文本相关数据集收集

探索和量化语义相关性对于表示语言至关重要，它对各种 NLP 任务具有重要意义，包括提供关于大型语言模型能力和性能的见解。本文介绍了 SemRel，这是一个由母语为 14 种语言的本土人士进行注释的新的语义相关性数据集收集项目。每个实例都是一个句子对，并与表示两个句子之间语义文本相关性程度的分数相关联。分数是通过比较性注释框架获得的。我们描述了数据收集和注释过程、构建数据集时的相关挑战以及它们在 NLP 中的影响和实用性。我们还报告了对每种语言以及不同语言之间进行的实验。

Feb, 2024

自然语言和本体分析的语义相似性

本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法：自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。

Apr, 2017

自然语言处理和心语言学的桥梁：计算基础的巴斯克语和西班牙语语义相似性和关联数据集

本文介绍了一个基于 NLP 资源的语义相似性数据集，用于填补心理语言学研究中的空白，并通过提供大量受词汇处理中起重要作用的变量控制的名词对的语义相似性的各种量化方式。

Apr, 2023

基于词汇分类法的文本相关性

本文提出了一种基于词库的、测量文本语义相似性的新方法，称为 Omiotis，它利用了单词之间的语义相关性，将其扩展到文本之间的相关性测量，并在句子相似性和释义识别任务中进行了实验验证，结果显示该方法在选定任务及数据集上表现优异，且与基于语料库和混合方法相媲美，优于所有基于词库的语义相似性方法。

Jan, 2014

NLU-STR 在 SemEval-2024 任务 1 中的应用：基于生成的增强和基于编码器的评分方法用于语义文本相关性

该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法，在 SemRel-2024 任务中取得了显著的结果，包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名，以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。

May, 2024