基于相关性的词向量表示内在评估

Jun, 2016

基于相关性的词向量表示内在评估

Correlation-based Intrinsic Evaluation of Word Vector Representations

Yulia Tsvetkov, Manaal Faruqui, Chris Dyer

TL;DR提出了一种基于 linguistic resources 的 word vector 表征的内在评估指标 QVEC-CCA，并展示了该评估的高效性和优越性。

Abstract

We introduce qvec-cca--an intrinsic evaluation metric for word vector representations based on correlations of learned vectors with features extracted from →

qvec-cca word vector representations intrinsic evaluation linguistic resources semantic and syntactic tasks

发现论文，激发创造

大规模多语言词向量

介绍了使用多语言字典和单语料库，无需平行数据，估计和评估 50 多种语言的单个共享嵌入空间中单词的新方法。新的评估方法 multiQVEC-CCA 展现出对两个下游任务（文本分类和解析）的更好的相关性。同时开展了为该领域进一步研究所设计的网页门户和所有方法的开源发行。

Feb, 2016

利用特征词嵌入编码先验知识

本研究介绍了如何将先前的知识融入正则化的规范相关分析（CCA）以推导单词嵌入，并在大量数据集上进行了评估。

Sep, 2015

使用词相似性任务评估词嵌入存在的问题

使用词相似度任务作为词向量内在评估的代理，但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题，并总结已有的解决方案，最后指出这种方法不具可持续性，需要进一步研究词向量的评估方法。

May, 2016

词嵌入表示的内在子空间评估

本文介绍了一种新的内在评价词汇表示的方法。我们提出了四个基本标准来检测这种方法是否能够满足自然语言的一些难点，我们提出了一些测试来直接展示这些标准是否得到满足。在此基础上，我们将这种方法应用于计数向量模型和神经网络模型等多种模型的比较，并证明了这些模型的重要性质。

Jun, 2016

词向量集之间的相关性

研究表明，基于单词嵌入的相似性度量方法在无监督语义文本相似性（STS）任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值，我们避免了传统的几何方法，使用于基本汇集运算和经典相关系数得到的相似性效果很好，胜过许多最近的方法，同时速度更快且实现容易。此外，研究认为通过重新生成核希尔伯特空间之间的相关算子，可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样，我们介绍了中心核对齐（CKA）的一种新颖应用，作为平方余弦相似性的集合的自然推广。同样，CKA 非常易于实现，并享有非常强的实证结果。

Oct, 2019

用不对称加权 CCA 和分级核句子嵌入实现图像与文本检索

本文提出了三个可以改善 CCB-MMR 检索性能的新方法，其中包括对称权重的首次使用，基于 Bjork Golub 算法的模型选择和基于核语义嵌入的层次核 CCA，这三种方法联合应用在 MSCOCO 和 Flickr 基准测试中表现优异。

Nov, 2015

基于排名的词向量相似度度量

本文研究了基于词嵌入的语义相似度计算方法，提出了一种基于排名的度量方法，在相似度测量和异常值检测方面表现良好，表明基于排名的度量方法可以提高聚类质量。

May, 2018

在张量组合设置中评估神经词表示

在多项组合任务中，我们提供一项神经词表示和基于共现计数的传统向量空间之间的比较研究。在三个不同的语义空间中，我们实现了七个基于张量的组合模型，并在涉及动词消歧和句子相似性的任务中进行测试。在大规模任务中，神经词嵌入表现优越，表现稳定。

Aug, 2014

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

神经网络表示的相似性再探讨

本文介绍了基于规范相关分析（CCA）方法的神经网络表示比较方法，并提出了一种相似度指数来测量表示相似性矩阵之间的关系，该指数与中心核对齐（CKA）密切相关，但不受高维表示限制，具有可靠性。与 CCA 不同，CKA 方法可在不同初始化的网络表示中可靠地识别对应关系。

May, 2019