FastKASSIM: 基于快速树内核的语法相似性度量
本文提出了一种通过在词汇分类结构和语料统计信息之间进行结合从而更好地度量语义空间内节点间语义距离的方法。这种综合方法结合了基于边缘计数方案的边缘方法和基于信息内容计算的节点方法,实现了对词对相似性评分数据集的超越性表现,与人类相似性判断的基准最高相关性值为 r=0.828,而在人类主体复制相同任务时可以观察到一个上界(r=0.885)。
Sep, 1997
本文提出了一种使用句法分析树的改进型 Word Mover's Distance(SynWMD)方法,它建立在基于句子的句法分析树中的词共现统计上,并考虑了每个单词的重要性和它们之间的局部句法结构,通过在 6 种文本语义相似度(STS)数据集和 4 个句子分类数据集上的实验证明 SynWMD 在提高评估精度方面取得了重大突破。
Jun, 2022
本文针对各种领域但仅需要最少的数据和计算资源的无监督 STS 提出了一种轻量级的 Expectation-Correction (EC) 公式来计算 STS,此方法包括通过组合多个递归 EC 公式来捕捉组合短语语义的 Recursive Optimal Transport Similarity (ROTS) 算法,这比之前的方法更有效和可扩展,并通过对 29 个 STS 任务的详细消融研究证明了此方法的有效性。
Oct, 2022
本文重新审视了最近的代码相似性评估度量,特别关注抽象语法树(AST)编辑距离在不同编程语言中的应用。我们探讨了这些度量的实用性,并将它们与传统的序列相似度度量进行了比较。我们的实验展示了 AST 编辑距离在捕捉复杂代码结构方面的有效性,与已有度量具有高度相关性。此外,我们还比较了 AST 编辑距离和基于提示的 GPT 相似度评分与 BLEU 分数、执行匹配和 Jaccard 相似度之间的优势和劣势。我们提出、优化并发布了一种可适应所有测试语言的度量方法,代表了增强版本的树编辑距离相似度(TSED)的成果。
Apr, 2024
本文分析了超过十余种测量两个短文本的语义相似性的方法,并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果,但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。
Apr, 2020
本文介绍了 SemSimp,它是一种用于测量数字资源的语义相似性的参数化方法,该方法基于信息内容的概念,并利用参考本体和分类推理,包括不同的方法来对本体的概念进行加权,该方法在 ACM 数字图书馆的基础上进行了实验,并显示出比其他相似性方法更好的结果。
Feb, 2023
本课题提出了一种新的句法分析方案,使用语法距离为每个输入句子中的拆分位置预测顺序,以自上而下的方式递归划分输入,相比传统的换卡规约分析方案,本方法不会出现错误累积问题,更易于并行处理,并且在 PTB 数据集中达到了竞争性的单模型判别式解析器性能,同时在 CTB 数据集中优于先前的模型。
Jun, 2018
本论文探讨了计算语义相似度的不同方法,比较了分类和分布式语义相似度的不同特点,提出了类别相似度建模的三种加权因素,发现在不同词频、多义性和相似度强度范围内存在语义相似度计算巨大差距。
Sep, 2022
本研究旨在支持对生成文本的质量评估,并针对属性更相关性的 NLG 评估指标进行比较评估,提出了一种 AMR-based CheckList 方法,用于意义相关的语言现象,设计了 GraCo 评估指标,使用 AMR 计算词汇凝聚图,表明其作为一种有趣的 NLG 评估指标值得未来的研究探讨。
May, 2022
采用通用相似度度量(USM)作为 K - 最近邻(K-NN)学习器中的替代距离度量,有效地识别可变长度序列数据,并与常用的字符串 - 词向量方法进行对比实验证明,USM 方法较字符串 - 词向量方法在垃圾邮件过滤和蛋白质亚细胞定位等领域的预测具有更高的准确性,并可生成可靠的概率预测。
May, 2024