基于相关性的词向量表示内在评估
介绍了使用多语言字典和单语料库,无需平行数据,估计和评估 50 多种语言的单个共享嵌入空间中单词的新方法。新的评估方法 multiQVEC-CCA 展现出对两个下游任务(文本分类和解析)的更好的相关性。同时开展了为该领域进一步研究所设计的网页门户和所有方法的开源发行。
Feb, 2016
使用词相似度任务作为词向量内在评估的代理,但没有标准化的词向量外部评估方法。本文探讨了使用词相似度数据集进行词向量评估时存在的问题,并总结已有的解决方案,最后指出这种方法不具可持续性,需要进一步研究词向量的评估方法。
May, 2016
本文介绍了一种新的内在评价词汇表示的方法。我们提出了四个基本标准来检测这种方法是否能够满足自然语言的一些难点,我们提出了一些测试来直接展示这些标准是否得到满足。在此基础上,我们将这种方法应用于计数向量模型和神经网络模型等多种模型的比较,并证明了这些模型的重要性质。
Jun, 2016
研究表明,基于单词嵌入的相似性度量方法在无监督语义文本相似性(STS)任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如 300 个观测值,我们避免了传统的几何方法,使用于基本汇集运算和经典相关系数得到的相似性效果很好,胜过许多最近的方法,同时速度更快且实现容易。此外,研究认为通过重新生成核希尔伯特空间之间的相关算子,可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样,我们介绍了中心核对齐(CKA)的一种新颖应用,作为平方余弦相似性的集合的自然推广。同样,CKA 非常易于实现,并享有非常强的实证结果。
Oct, 2019
本文提出了三个可以改善 CCB-MMR 检索性能的新方法,其中包括对称权重的首次使用,基于 Bjork Golub 算法的模型选择和基于核语义嵌入的层次核 CCA,这三种方法联合应用在 MSCOCO 和 Flickr 基准测试中表现优异。
Nov, 2015
在多项组合任务中,我们提供一项神经词表示和基于共现计数的传统向量空间之间的比较研究。在三个不同的语义空间中,我们实现了七个基于张量的组合模型,并在涉及动词消歧和句子相似性的任务中进行测试。在大规模任务中,神经词嵌入表现优越,表现稳定。
Aug, 2014
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文介绍了基于规范相关分析(CCA)方法的神经网络表示比较方法,并提出了一种相似度指数来测量表示相似性矩阵之间的关系,该指数与中心核对齐(CKA)密切相关,但不受高维表示限制,具有可靠性。与 CCA 不同,CKA 方法可在不同初始化的网络表示中可靠地识别对应关系。
May, 2019