多语言表示的跨语言相似性再探讨
本文介绍了基于规范相关分析(CCA)方法的神经网络表示比较方法,并提出了一种相似度指数来测量表示相似性矩阵之间的关系,该指数与中心核对齐(CKA)密切相关,但不受高维表示限制,具有可靠性。与 CCA 不同,CKA 方法可在不同初始化的网络表示中可靠地识别对应关系。
May, 2019
我们研究了 transformer 模型中隐藏层之间的表示相似性,并展示了一个简单的样本级余弦相似度度量能够捕捉到这种相似性,并与复杂的统计方法 CCA 一致,通过提出对齐训练方法,我们增强了内部表示之间的相似性,并得到了具有多个隐藏层输出的模型,与标准训练相比,这些模型在中间层具有更高的准确性,并且当作为多出口模型时,它们能够与标准的多出口架构达到相当的性能,而我们的工作是首次证明一个普通分类器就足够用于多出口模型。
Jun, 2024
通过分析 Centered Kernel Alignment 算法对于在机器学习中出现的简单变化的敏感度,我们研究了该算法的若干弱点,并探索了在保持功能行为的前提下改变 CKA 值的方法,结果表明 CKA 值可以容易地被操纵而不需对模型做实质性的改变,因此在利用活动对齐度量时需谨慎。
Oct, 2022
本研究使用 Singular Value Canonical Correlation Analysis(SVCCA)分析了包含 103 种语言的 NMT 模型,发现不同语言的编码器表示会基于语言相似性聚集,源语言和目标语言的表示相互依赖,并且高资源和 / 或语言相似性更强的语言在任意语言对上进行微调时更为稳健,这些结论对于跨语言转移学习非常重要,并进一步联系到现有的实证观察。
Sep, 2019
利用奇异值典型相关分析 (SVCCA),我们分析了一个在 22 种语言上进行训练的多语言端到端语音翻译模型的表示学习。我们通过 SVCCA 估计了不同语言和层之间的表示相似性,增进了我们对多语言语音翻译功能及其与多语言神经机器翻译的潜在联系的理解。通过对分析的结论,我们提出了解除对低资源语言的数据限制,将其与语言相关的高资源语言相结合的方法,以提供更有效的多语言端到端语音翻译。
Oct, 2023
作者们通过投影加权规范相关分析法(projection weighted CCA)研究神经网络的表征学习。研究发现,广泛的神经网络更容易获得相似的表征,与学习速率相关的神经网络收敛到具有不同表征的不同聚类中,RNN 随着时间的推移呈自底向上的模式聚合,而其隐藏状态在序列的不同时间间隔内变化较大。
Jun, 2018
该研究探讨了是否可以利用不同语言之间的字符级相似性实现跨语言文本分类,并提出了一个利用交叉语言字符级子词相似性的框架 (CACO),结合字符嵌入器和基于词的分类器。实验结果表明利用字符级别的知识转移比使用基于词的转移在相关语言间更有效。
Dec, 2018
本文提供了一个框架来验证神经网络的行为,通过功能行为敏感性和特异性等方面测试常用的神经网络模型评估方法,研究发现当前的评估指标存在不同缺陷,一个经典的基线表现出人意料的好,作者对所有指标都无法胜任的场景进行了强调,并为未来的研究提供了挑战性的基础数据。
Aug, 2021
利用聚类方法探索多语言模型中的潜在概念,研究多语言嵌入之间的对齐和重叠程度,通过引入两个度量指标 CA 和 CO 进行定量分析,发现网络的深层对齐性较好,模型的微调增强了潜在空间中的对齐性,任务特定的校准有助于解释模型的零射击能力的出现。
May, 2024
本文提出了一个模块化的感知诱导和表示学习模型,联合学习双语感知嵌入,在向量空间中很好地对齐,利用英汉平行语料库中的跨语言信号捕捉语言对中的词汇搭配和分布特征。通过在 Stanford 上下文单词相似性(SCWS)数据集上进行评估,确保单语感知嵌入的质量。此外,我们还介绍了双语上下文单词相似性(BCWS),这是评估跨语言感知嵌入的大型高质量数据集,是衡量学习的嵌入是否在向量空间中确实对齐的第一次尝试。所提出方法展示了在单语和双语空间中评估感知嵌入的优越质量。
Sep, 2018