探索使用 ICA 的内部和外部语言一致性嵌入

Jun, 2024

探索使用 ICA 的内部和外部语言一致性嵌入

Exploring Intra and Inter-language Consistency in Embeddings with ICA

Rongzhi Li, Takeru Matsuda, Hitomi Yanaka

TL;DR利用自由职业键功能鉴定多语种语义轴的一致性。

Abstract

word embeddings represent words as multidimensional real vectors, facilitating data analysis and processing, but are often challenging to interpret. Independent Component Analysis (ICA) creates clearer semantic axes

word embeddings independent component analysis (ica)semantic axes intra-language consistency inter-language consistency

发现论文，激发创造

通过 ICA 发现嵌入中的通用几何形状

本研究采用独立分量分析技术来揭示单词或图像嵌入的通用规律。研究表明，嵌入可以表示为几个轴的组合，这些语义轴在不同的语言、模态和嵌入算法中一致存在。这一发现有助于模型解释能力的提高，可能促进高度可解释模型的发展和大规模模型的压缩。

May, 2023

词嵌入独立分量代表语义特征

本文使用独立分量分析算法分析单词嵌入，发现独立分量可以用于找到单词的语义特征，并可轻松组合这些特征来搜索满足条件的单词，其中稳定性强。

Dec, 2022

通过标准化的 ICA 转换嵌入重新审视余弦相似度

本研究提出一种新的解释，将余弦相似度解释为在独立成分分析转换的嵌入空间中的语义相似度之和，通过实验证明了归一化的 ICA 转换后的嵌入具有稀疏性，可以增强可解释性，并利用理想嵌入进行检索实验验证了该解释的有效性。

Jun, 2024

轴游览：字游览决定 ICA 转换嵌入中的轴顺序

通过最大化语义连续性，我们的研究提出了一种新颖的方法，即 Axis Tour，用于优化词嵌入空间中轴的排序，并通过实验验证了其构建更好的低维嵌入。

Jan, 2024

利用特征词嵌入编码先验知识

本研究介绍了如何将先前的知识融入正则化的规范相关分析（CCA）以推导单词嵌入，并在大量数据集上进行了评估。

Sep, 2015

关于单词嵌入空间的维度语言特征

本文对词嵌入进行了主成分分析，并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用，并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关，从而调查了基于方差的嵌入后处理的局限性，并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后，本文提供了一些关于应用基于方差的嵌入后处理的预防性准则，并解释了非各向同性几何可能是词嵌入性能的一部分的原因。

Oct, 2019

一种用于纵向神经影像研究的分层独立成分分析模型

本文提出了一种新的长期独立成分模型 (L-ICA)，可以更准确地估计个体和总体层面上脑功能网络的变化，并通过包含随机和访问特定的协变量效应来提高重复测量成像数据处理的统计功效。通过将 L-ICA 应用于 ADNI2 研究，提出了在失智症时脑功能网络变化的生物学见解。

Aug, 2018

潜空间明晰度与解释性增强（LS-PIE）框架

本文提出了一个通用框架来增强线性潜在空间表示，以提高其可解释性和可用性，并展示了该框架在 PCA 和 ICA 上的效果。

Jul, 2023

研究上下文词嵌入维度对上下文和时间语义变化的影响

词语会随着时间和不同的语境而改变其含义。词语在上下文感知的上下文化词嵌入空间中编码语义变化，在语义变化检测基准中具有卓越性能。本研究通过使用 PCA 和 ICA 转换在预训练的词嵌入和微调后的词嵌入之间进行比较，揭示了几个新的洞察，例如信息如何在嵌入空间中分布和 PCA 能更好地表示语义变化。

Jul, 2024

基于指南针对齐的分布式嵌入，用于研究语料库间的语义差异

本文提出了一个通用框架，用于支持使用单词嵌入进行跨语料库的语言研究，其中可以比较从不同语料库生成的嵌入项，以找出语料库之间的含义对应和差异。该框架的核心组件是 CADE，重点解决了从不同语料库生成的嵌入项的对齐问题。经过实验，结果表明 CADE 在时间词嵌入，语言本地化和主题分析等各个领域都达到了最先进或更优异的性能。

Apr, 2020