探索使用 ICA 的内部和外部语言一致性嵌入
本研究采用独立分量分析技术来揭示单词或图像嵌入的通用规律。研究表明,嵌入可以表示为几个轴的组合,这些语义轴在不同的语言、模态和嵌入算法中一致存在。这一发现有助于模型解释能力的提高,可能促进高度可解释模型的发展和大规模模型的压缩。
May, 2023
本研究提出一种新的解释,将余弦相似度解释为在独立成分分析转换的嵌入空间中的语义相似度之和,通过实验证明了归一化的 ICA 转换后的嵌入具有稀疏性,可以增强可解释性,并利用理想嵌入进行检索实验验证了该解释的有效性。
Jun, 2024
通过最大化语义连续性,我们的研究提出了一种新颖的方法,即 Axis Tour,用于优化词嵌入空间中轴的排序,并通过实验验证了其构建更好的低维嵌入。
Jan, 2024
本文对词嵌入进行了主成分分析,并提出了许多新颖且反直观的观察。研究人员进一步说明了方差解释率作为下游任务性能的代理效用,并通过对主嵌入空间的句法探测来展示主成分所捕捉的句法信息与其解释方差的数量不相关,从而调查了基于方差的嵌入后处理的局限性,并证明这种后处理在句子分类和机器翻译任务中是产生反效果的。最后,本文提供了一些关于应用基于方差的嵌入后处理的预防性准则,并解释了非各向同性几何可能是词嵌入性能的一部分的原因。
Oct, 2019
本文提出了一种新的长期独立成分模型 (L-ICA),可以更准确地估计个体和总体层面上脑功能网络的变化,并通过包含随机和访问特定的协变量效应来提高重复测量成像数据处理的统计功效。通过将 L-ICA 应用于 ADNI2 研究,提出了在失智症时脑功能网络变化的生物学见解。
Aug, 2018
词语会随着时间和不同的语境而改变其含义。词语在上下文感知的上下文化词嵌入空间中编码语义变化,在语义变化检测基准中具有卓越性能。本研究通过使用 PCA 和 ICA 转换在预训练的词嵌入和微调后的词嵌入之间进行比较,揭示了几个新的洞察,例如信息如何在嵌入空间中分布和 PCA 能更好地表示语义变化。
Jul, 2024
本文提出了一个通用框架,用于支持使用单词嵌入进行跨语料库的语言研究,其中可以比较从不同语料库生成的嵌入项,以找出语料库之间的含义对应和差异。该框架的核心组件是 CADE,重点解决了从不同语料库生成的嵌入项的对齐问题。经过实验,结果表明 CADE 在时间词嵌入,语言本地化和主题分析等各个领域都达到了最先进或更优异的性能。
Apr, 2020