FastKASSIM: 基于快速树内核的语法相似性度量

ACLMar, 2022

FastKASSIM: 基于快速树内核的语法相似性度量

FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric

Maximillian Chen, Caitlyn Chen, Xiao Yu, Zhou Yu

TL;DR本文介绍了一种基于树核心的度量方法 FastKASSIM，它可以用于捕捉话语和文档级别的语法相似性和连贯性，与现有标准文档级语法相似性度量方法相比，FastKASSIM 更具鲁棒性且运行速度更快，可以预测 ChangeMyView 论坛上的辩论论点流畅性以及澳大利亚高等法院裁决文书的作者身份。

Abstract

Syntax is a fundamental component of language, yet few metrics have been employed to capture syntactic similarity or coherence at the utterance- and →

发现论文，激发创造

基于语料库统计和词汇分类的语义相似度

本文提出了一种通过在词汇分类结构和语料统计信息之间进行结合从而更好地度量语义空间内节点间语义距离的方法。这种综合方法结合了基于边缘计数方案的边缘方法和基于信息内容计算的节点方法，实现了对词对相似性评分数据集的超越性表现，与人类相似性判断的基准最高相关性值为 r=0.828，而在人类主体复制相同任务时可以观察到一个上界（r=0.885）。

Sep, 1997

SynWMD：一种用于句子相似度评估的基于语法的词移距离算法

本文提出了一种使用句法分析树的改进型 Word Mover's Distance（SynWMD）方法，它建立在基于句子的句法分析树中的词共现统计上，并考虑了每个单词的重要性和它们之间的局部句法结构，通过在 6 种文本语义相似度（STS）数据集和 4 个句子分类数据集上的实验证明 SynWMD 在提高评估精度方面取得了重大突破。

Jun, 2022

基于组合短语语义的无监督句子文本相似度

本文针对各种领域但仅需要最少的数据和计算资源的无监督 STS 提出了一种轻量级的 Expectation-Correction (EC) 公式来计算 STS，此方法包括通过组合多个递归 EC 公式来捕捉组合短语语义的 Recursive Optimal Transport Similarity (ROTS) 算法，这比之前的方法更有效和可扩展，并通过对 29 个 STS 任务的详细消融研究证明了此方法的有效性。

Oct, 2022

重访使用抽象语法树编辑距离评估代码相似度

本文重新审视了最近的代码相似性评估度量，特别关注抽象语法树（AST）编辑距离在不同编程语言中的应用。我们探讨了这些度量的实用性，并将它们与传统的序列相似度度量进行了比较。我们的实验展示了 AST 编辑距离在捕捉复杂代码结构方面的有效性，与已有度量具有高度相关性。此外，我们还比较了 AST 编辑距离和基于提示的 GPT 相似度评分与 BLEU 分数、执行匹配和 Jaccard 相似度之间的优势和劣势。我们提出、优化并发布了一种可适应所有测试语言的度量方法，代表了增强版本的树编辑距离相似度（TSED）的成果。

Apr, 2024

风格转移和改写：寻找合理的语义相似性度量

本文分析了超过十余种测量两个短文本的语义相似性的方法，并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果，但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。

Apr, 2020

基于参数相似性方法的比较实验：基于语义注释的大型数据集

本文介绍了 SemSimp，它是一种用于测量数字资源的语义相似性的参数化方法，该方法基于信息内容的概念，并利用参考本体和分类推理，包括不同的方法来对本体的概念进行加权，该方法在 ACM 数字图书馆的基础上进行了实验，并显示出比其他相似性方法更好的结果。

Feb, 2023

神经句法距离的短语结构句法分析

本课题提出了一种新的句法分析方案，使用语法距离为每个输入句子中的拆分位置预测顺序，以自上而下的方式递归划分输入，相比传统的换卡规约分析方案，本方法不会出现错误累积问题，更易于并行处理，并且在 PTB 数据集中达到了竞争性的单模型判别式解析器性能，同时在 CTB 数据集中优于先前的模型。

Jun, 2018

用于计算语义相似度的分类和神经嵌入方法的评估

本论文探讨了计算语义相似度的不同方法，比较了分类和分布式语义相似度的不同特点，提出了类别相似度建模的三种加权因素，发现在不同词频、多义性和相似度强度范围内存在语义相似度计算巨大差距。

Sep, 2022

基于语义相似度评分的面向意义的自然语言生成测度评估动态、解释性清单

本研究旨在支持对生成文本的质量评估，并针对属性更相关性的 NLG 评估指标进行比较评估，提出了一种 AMR-based CheckList 方法，用于意义相关的语言现象，设计了 GraCo 评估指标，使用 AMR 计算词汇凝聚图，表明其作为一种有趣的 NLG 评估指标值得未来的研究探讨。

May, 2022

学习字符串序列

采用通用相似度度量（USM）作为 K - 最近邻（K-NN）学习器中的替代距离度量，有效地识别可变长度序列数据，并与常用的字符串 - 词向量方法进行对比实验证明，USM 方法较字符串 - 词向量方法在垃圾邮件过滤和蛋白质亚细胞定位等领域的预测具有更高的准确性，并可生成可靠的概率预测。

May, 2024