基于词汇分类法的文本相关性

Jan, 2014

Text Relatedness Based on a Word Thesaurus

George Tsatsaronis, Iraklis Varlamis, Michalis Vazirgiannis

TL;DR本文提出了一种基于词库的、测量文本语义相似性的新方法，称为 Omiotis，它利用了单词之间的语义相关性，将其扩展到文本之间的相关性测量，并在句子相似性和释义识别任务中进行了实验验证，结果显示该方法在选定任务及数据集上表现优异，且与基于语料库和混合方法相媲美，优于所有基于词库的语义相似性方法。

Abstract

The computation of relatedness between two fragments of text in an automated manner requires taking into account a wide range of factors pertaining to the meaning the two fragments convey, and the pairwise relations between their words. Without doubt, a measure of relatedness between text segments must take into account both the lexical and the →

发现论文，激发创造

基于语料库统计和词汇分类的语义相似度

本文提出了一种通过在词汇分类结构和语料统计信息之间进行结合从而更好地度量语义空间内节点间语义距离的方法。这种综合方法结合了基于边缘计数方案的边缘方法和基于信息内容计算的节点方法，实现了对词对相似性评分数据集的超越性表现，与人类相似性判断的基准最高相关性值为 r=0.828，而在人类主体复制相同任务时可以观察到一个上界（r=0.885）。

Sep, 1997

句子语义相关的原因：一个文本相关性数据集和实证研究

本文介绍一个新的数据集 ——STR-2022，该数据集包含 5,500 个英文句子对，用比较注释框架手动注释，得出精细的分数，用于探索相关性和评估自动句子表示方法及下游的自然语言处理任务。

Oct, 2021

自然语言和本体分析的语义相似性

本书主要介绍语义相似度估计及其它语义度量学科的两种最先进的方法：自然语言处理技术和语义模型以及基于语义网络、词库或本体论的计算机可读的知识形式。它的目的是为初学者和研究人员提供更好地理解语义相似度估计和更一般的语义度量。

Apr, 2017

语义排序：个性化语义相关性的监督学习方法

本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型，该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成，并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型，方法独立于语料库、适用于任何足够大的（非结构化）文本集合，并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明，这种方法是有效的，竞争力强。

Nov, 2013

基于语义相关性的文本识别再排序

我们提出了一种神经方法来学习语义相关性，并通过学习单词对句子或单词到单词的关系分数来改善文本识别性能，证明了在识别图像中的文本时，语义相关性可以优于其他度量标准。

Sep, 2019

OntoSeg: 使用本体相似性的文本分割新方法

本文提出了一种基于本体相似性的文本分割方法，使用 Hierarchical Agglomerative Clustering 算法生成一种树形分层结构，用于表征文本的概念结构，从而实现在不同粒度级别上的线性文本分割，实验证明该方法具有很高的分割质量。

Nov, 2015

俄语语义相关性的人工和机器判断

本文介绍了为俄语语义相关性提供 5 种不同规模和目的的语言资源，其中四个旨在评估计算语义相关性的系统，另一个旨在生成第一个俄语开放的分布式词库，其中包含了大规模的众包研究表明其高准确性。

Aug, 2017

本体论在推荐系统中计算语义相似度的应用

本文探讨了基于本体论的语义相似性计算在推荐系统中的应用。

May, 2022

分布测度作为语义相关性的代理

本文研究了语义相关性的自动排名和分布式度量方法相对于本体论度量方法的相对优势和局限性，并提出了可以更符合人类语义相关性观念的度量方法，最后比较了分布式和基于本体论的度量方法，并指出了相关的研究问题。

Mar, 2012

NLU-STR 在 SemEval-2024 任务 1 中的应用：基于生成的增强和基于编码器的评分方法用于语义文本相关性

该篇研究论文通过使用 BERT 模型进行有监督和无监督的学习方法，在 SemRel-2024 任务中取得了显著的结果，包括在 MSA 中获得了 0.49 的 Spearman 相关系数的第一名，以及在摩洛哥语和阿尔及利亚语中分别获得了 0.83 和 0.53 的高分。

May, 2024