利用特征词嵌入编码先验知识
本文探讨了基于互联网图像和相关文本标签的图像搜索、标签搜索和图像注释等任务,采用典型相关分析(CCA)方法将视觉和文本特征映射到同一隐藏向量空间,在此基础上,引入了表示高级图像语义的第三个视图来训练三个视图的嵌入,并结合多种视觉特征进行训练,实现了高效的嵌入式检索。
Dec, 2012
本文提出了一种新的生成模型,将先验用于计算词汇统计量的闭合形式表达式,从而为非线性模型提供了理论上的证明,并帮助解释了低维度语义嵌入中线性代数结构的存在,以及解决了词汇类比问题。
Feb, 2015
本篇文章提出了一种无监督的相关分析方法 (UCA),用于解决在计算机视觉中串联不同领域的问题,并将其与常用的Cannonical Correlation Analysis (CCA)方法进行比较,证明UCA的性能优于其他无监督的基准线,在某些情况下可以接近于有监督方法的性能。
Apr, 2018
研究表明,基于单词嵌入的相似性度量方法在无监督语义文本相似性(STS)任务中正在与更复杂的深度学习和专家设计的系统轻松竞争。通过将一个单词嵌入视为标量随机变量的例如300个观测值,我们避免了传统的几何方法,使用于基本汇集运算和经典相关系数得到的相似性效果很好,胜过许多最近的方法,同时速度更快且实现容易。此外,研究认为通过重新生成核希尔伯特空间之间的相关算子,可以避免汇集运算并直接比较词嵌入集。正如余弦相似性用于比较单个单词向量一样,我们介绍了中心核对齐(CKA)的一种新颖应用,作为平方余弦相似性的集合的自然推广。同样,CKA非常易于实现,并享有非常强的实证结果。
Oct, 2019
本研究采用独立分量分析技术来揭示单词或图像嵌入的通用规律。研究表明,嵌入可以表示为几个轴的组合,这些语义轴在不同的语言、模态和嵌入算法中一致存在。这一发现有助于模型解释能力的提高,可能促进高度可解释模型的发展和大规模模型的压缩。
May, 2023
提出了一种新的框架 Aligned Canonical Correlation Analysis (ACCA),通过迭代地解决对齐和多视角嵌入,解决了多数实际情况中需要的传统方法中不清晰的各种数据视角之间的对齐问题。
Dec, 2023
本研究提出一种新的解释,将余弦相似度解释为在独立成分分析转换的嵌入空间中的语义相似度之和,通过实验证明了归一化的ICA转换后的嵌入具有稀疏性,可以增强可解释性,并利用理想嵌入进行检索实验验证了该解释的有效性。
Jun, 2024
本研究展示了典型相关分析 (CCA) 在发现在双视图设置下捕捉文本数据中的上下文信息的潜在状态方面的潜力,并提出了使用CCA执行自动短答案评分任务的模型。经验证实,该模型在实践分析中取得了有竞争力的结果,甚至可以胜过各种先进的监督技术。该模型简单、线性可适应,并应作为基准模型使用,特别是在标注训练数据稀缺或不存在的情况下。
Jun, 2024
本研究解决了独立成分分析(ICA)在实际数据中无法完全消除成分间非独立性的关键问题。通过量化高阶相关性,论文展示了高阶相关性较大的成分之间具有强语义关联性,并通过最大生成树可视化了语义成分的整体结构。这些发现为通过ICA进一步理解嵌入提供了新的视角。
Sep, 2024