词向量集之间的相关性 | BriefGPT - AI 论文速递

EMNLPOct, 2019

词向量集之间的相关性

Correlations between Word Vector Sets

Vitalii Zhelezniak, April Shen, Daniel Busbridge, Aleksandar Savkov, Nils Hammerla

TL;DR研究表明，基于单词嵌入的相似性度量方法在无监督语义文本相似性（STS）任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值，我们避免了传统的几何方法，使用于基本汇集运算和经典相关系数得到的相似性效果很好，胜过许多最近的方法，同时速度更快且实现容易。此外，研究认为通过重新生成核希尔伯特空间之间的相关算子，可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样，我们介绍了中心核对齐（CKA）的一种新颖应用，作为平方余弦相似性的集合的自然推广。同样，CKA 非常易于实现，并享有非常强的实证结果。

Abstract

Similarity measures based purely on word embeddings are comfortably competing with much more sophisticated deep learning and expert-engineered systems on unsupervised semantic textual similarity (STS) tasks. In c

word embeddings unsupervised semantic textual similarity pooling operations correlation coefficients reproducing kernel hilbert spaces

发现论文，激发创造

相关系数与语义文本相似度

本研究比较了常见文本向量表示方法中余弦相似度和皮尔逊相关系数等相似度计算方法的优缺点及其适用范围，并提出使用非参数秩相关系数作为相似度计算方法，以提高语义文本相似性任务的性能表现。

May, 2019

基于排名的词向量相似度度量

本文研究了基于词嵌入的语义相似度计算方法，提出了一种基于排名的度量方法，在相似度测量和异常值检测方面表现良好，表明基于排名的度量方法可以提高聚类质量。

May, 2018

使用词相似性任务评估词嵌入存在的问题

使用词相似度任务作为词向量内在评估的代理，但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题，并总结已有的解决方案，最后指出这种方法不具可持续性，需要进一步研究词向量的评估方法。

May, 2016

基于子空间的预训练词嵌入空间集合运算

本研究提出了一种利用预训练词向量空间中的子空间进行集合运算的新方法，并在 Text Concept Set Retrieval 和 Semantic Textual Similarity 任务中进行了实验证明了该方法的有效性。

Oct, 2022

不要满足于平均水平，争取最大化：模糊集和最大池化词向量

本文提出了一种基于模糊词袋 (FBoW) 表示的文本相似度计算方法，通过使用词向量相似度进行加权处理，动态提取和最大池化好的特征，它是一种完全无监督和非参数化的相似度计算方法，不但比当前基线方法优秀，而且在标准 STS 基准测试中，与直接优化余弦相似度的监督式词向量训练相竞争。

Apr, 2019

神经网络表示的相似性再探讨

本文介绍了基于规范相关分析（CCA）方法的神经网络表示比较方法，并提出了一种相似度指数来测量表示相似性矩阵之间的关系，该指数与中心核对齐（CKA）密切相关，但不受高维表示限制，具有可靠性。与 CCA 不同，CKA 方法可在不同初始化的网络表示中可靠地识别对应关系。

May, 2019

检测语料库中使用频率发生变化的词语的简单、可解释和稳定的方法

本文提出了一种不使用向量空间对齐，而是考虑每个单词的邻居的新方法，有效地解决了数字人文学和计算社会科学中的文本比较问题。

Dec, 2021

探索词嵌入偏移聚类在关系分类中的应用

本研究探讨了一种使用不同的聚合策略将单词向量之间的关系表示为向量的方法，并使用聚类模型来分析它们的正确匹配性。实验结果表明，减法聚合策略配合基于中心点的聚类机制在性能上表现更好，该研究旨在为基于词嵌入的无监督方法提供一个识别成对词汇之间关系的方向。

May, 2023

嵌入向量的余弦相似度真的只是相似性吗？

用于量化高维对象之间语义相似度的余弦相似度在实践中比未归一化的嵌入向量点积表现有时更好、有时更差。通过研究基于正则化线性模型的嵌入，我们得出了余弦相似度可以产生任意且无意义的相似度的结论。因此，我们提醒不要盲目使用余弦相似度，并提出替代方法。

Mar, 2024

基于计数模型的词向量表示恢复

该研究是关于使用基于计数的模型来提取文本的语义表征，使用 Hellinger 距离用于处理大型语料库中的单词共现统计数据，并获得了很好的性能表现。

Dec, 2014