相关系数与语义文本相似度

ACLMay, 2019

Correlation Coefficients and Semantic Textual Similarity

Vitalii Zhelezniak, Aleksandar Savkov, April Shen, Nils Y. Hammerla

TL;DR本研究比较了常见文本向量表示方法中余弦相似度和皮尔逊相关系数等相似度计算方法的优缺点及其适用范围，并提出使用非参数秩相关系数作为相似度计算方法，以提高语义文本相似性任务的性能表现。

Abstract

A large body of research into semantic textual similarity has focused on constructing state-of-the-art embeddings using sophisticated modelling, careful choice of learning signals and many clever tricks. By contr

semantic textual similarity embeddings cosine similarity pearson correlation coefficient non-parametric rank correlation coefficients

发现论文，激发创造

基于排名的词向量相似度度量

本文研究了基于词嵌入的语义相似度计算方法，提出了一种基于排名的度量方法，在相似度测量和异常值检测方面表现良好，表明基于排名的度量方法可以提高聚类质量。

May, 2018

词向量集之间的相关性

研究表明，基于单词嵌入的相似性度量方法在无监督语义文本相似性（STS）任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值，我们避免了传统的几何方法，使用于基本汇集运算和经典相关系数得到的相似性效果很好，胜过许多最近的方法，同时速度更快且实现容易。此外，研究认为通过重新生成核希尔伯特空间之间的相关算子，可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样，我们介绍了中心核对齐（CKA）的一种新颖应用，作为平方余弦相似性的集合的自然推广。同样，CKA 非常易于实现，并享有非常强的实证结果。

Oct, 2019

嵌入向量的余弦相似度真的只是相似性吗？

用于量化高维对象之间语义相似度的余弦相似度在实践中比未归一化的嵌入向量点积表现有时更好、有时更差。通过研究基于正则化线性模型的嵌入，我们得出了余弦相似度可以产生任意且无意义的相似度的结论。因此，我们提醒不要盲目使用余弦相似度，并提出替代方法。

Mar, 2024

上下文比对：使用度量张量提高余弦相似度测量

本文中，我们提出了使用扩展余弦相似度测量来提高单词相似度任务的性能，我们还探索了这种方法在上下文相同的情况下特别有效的假设，并使用了不同的数据集来进行测试。测试结果显示，使用本文提出的方法可以显著提高相似度任务的性能。

Mar, 2022

通过标准化的 ICA 转换嵌入重新审视余弦相似度

本研究提出一种新的解释，将余弦相似度解释为在独立成分分析转换的嵌入空间中的语义相似度之和，通过实验证明了归一化的 ICA 转换后的嵌入具有稀疏性，可以增强可解释性，并利用理想嵌入进行检索实验验证了该解释的有效性。

Jun, 2024

对于高频词嵌入相似度度量中余弦相似度的问题

使用余弦相似度可对于 NLP 的任务（如问答，信息检索，机器翻译）进行上下文嵌入建模，但是我们发现使用 BERT 解析的余弦相似度在估算词语相似度方面存在高低频词的差异，在控制多义性和其他因素后，高频词与同一词语的其他实例或其他上下文中的其他词语的相似度被低估，这种低估是由于高低频词的代表性几何形状差异导致.

May, 2022

基于语料库统计和词汇分类的语义相似度

本文提出了一种通过在词汇分类结构和语料统计信息之间进行结合从而更好地度量语义空间内节点间语义距离的方法。这种综合方法结合了基于边缘计数方案的边缘方法和基于信息内容计算的节点方法，实现了对词对相似性评分数据集的超越性表现，与人类相似性判断的基准最高相关性值为 r=0.828，而在人类主体复制相同任务时可以观察到一个上界（r=0.885）。

Sep, 1997

清晰相似性以提升基于内存的推荐系统

分析了基于记忆的协同过滤方法中的相似性估算器的谱特性，说明 Pearson 和 cosine 相似性估算器中存在的噪声和特征值扩散问题，提出了一种简单的重新缩放和噪声清理方案，使基于记忆的方法表现更好。

May, 2019

学习极短文本的语义相似性

研究了基于单词嵌入和 tf-idf 相似性的方法，用于匹配短文本片段，并得出使用两种方法的混合方法可以更好地模拟非常短的文本片段中的语义内容。

Dec, 2015

基于余弦的词向量偏倚分数的语义属性

在这项工作中，我们通过基于几何定义的偏见，提出了对偏见得分的要求，以便被认为是衡量偏见的有意义的方法，并通过对文献中的余弦偏见得分进行形式分析，加以强调，并通过实验证明偏见得分的局限性对应用案例产生影响。

Jan, 2024