基于词汇分类法的文本相关性
本文提出了一种通过在词汇分类结构和语料统计信息之间进行结合从而更好地度量语义空间内节点间语义距离的方法。这种综合方法结合了基于边缘计数方案的边缘方法和基于信息内容计算的节点方法,实现了对词对相似性评分数据集的超越性表现,与人类相似性判断的基准最高相关性值为 r=0.828,而在人类主体复制相同任务时可以观察到一个上界(r=0.885)。
Sep, 1997
本文介绍一个新的数据集 ——STR-2022,该数据集包含 5,500 个英文句子对,用比较注释框架手动注释,得出精细的分数,用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。
Oct, 2021
本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法:自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。
Apr, 2017
本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型,该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成,并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型,方法独立于语料库、适用于任何足够大的(非结构化)文本集合,并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明,这种方法是有效的,竞争力强。
Nov, 2013
我们提出了一种神经方法来学习语义相关性,并通过学习单词对句子或单词到单词的关系分数来改善文本识别性能,证明了在识别图像中的文本时,语义相关性可以优于其他度量标准。
Sep, 2019
本文提出了一种基于本体相似性的文本分割方法,使用 Hierarchical Agglomerative Clustering 算法生成一种树形分层结构,用于表征文本的概念结构,从而实现在不同粒度级别上的线性文本分割,实验证明该方法具有很高的分割质量。
Nov, 2015
本文介绍了为俄语语义相关性提供 5 种不同规模和目的的语言资源,其中四个旨在评估计算语义相关性的系统,另一个旨在生成第一个俄语开放的分布式词库,其中包含了大规模的众包研究表明其高准确性。
Aug, 2017
本文研究了语义相关性的自动排名和分布式度量方法相对于本体论度量方法的相对优势和局限性,并提出了可以更符合人类语义相关性观念的度量方法,最后比较了分布式和基于本体论的度量方法,并指出了相关的研究问题。
Mar, 2012
该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法,在 SemRel-2024 任务中取得了显著的结果,包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名,以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。
May, 2024