使用 SVCCA 理解语言模型的学习动态

ACLNov, 2018

使用 SVCCA 理解语言模型的学习动态

Understanding Learning Dynamics Of Language Models with SVCCA

Naomi Saphra, Adam Lopez

TL;DR通过 SVCCA 算法，探索并比较神经网络语言模型的学习动态，结果显示词性先于主题进行学习，循环层逐渐类似于标注器，嵌入层则不同，这一研究对于改进自然语言处理模型的学习算法及更好地融合语言学信息具有指导意义。

Abstract

Research has shown that neural models implicitly encode linguistic features, but there has been no research showing \emph{how} these encodings arise as the models are trained. We present the first study on the

neural models linguistic features learning dynamics svcca nlp models

发现论文，激发创造

探索对多语言端到端语音翻译的深入理解

利用奇异值典型相关分析 (SVCCA)，我们分析了一个在 22 种语言上进行训练的多语言端到端语音翻译模型的表示学习。我们通过 SVCCA 估计了不同语言和层之间的表示相似性，增进了我们对多语言语音翻译功能及其与多语言神经机器翻译的潜在联系的理解。通过对分析的结论，我们提出了解除对低资源语言的数据限制，将其与语言相关的高资源语言相结合的方法，以提供更有效的多语言端到端语音翻译。

Oct, 2023

探究规模化多语言 NMT 表示

本研究使用 Singular Value Canonical Correlation Analysis（SVCCA）分析了包含 103 种语言的 NMT 模型，发现不同语言的编码器表示会基于语言相似性聚集，源语言和目标语言的表示相互依赖，并且高资源和 / 或语言相似性更强的语言在任意语言对上进行微调时更为稳健，这些结论对于跨语言转移学习非常重要，并进一步联系到现有的实证观察。

Sep, 2019

通过子种群分析理解语言模型中的领域学习

通过基于子群分析和奇异向量标准相关分析（SVCCA）的一种主要分析工具，我们研究了现代神经网络体系结构中如何对不同的领域进行编码。我们发现增加模型容量会以不同的方式影响领域信息在不同层中的存储，并且较大的实验模型同时嵌入特定于领域的信息，就像它们是联合的对照模型一样。

Oct, 2022

针对深度学习动态和可解释性的奇异向量正则相关分析（SVCCA）

提出了 Singular Vector Canonical Correlation Analysis（SVCCA）技术，用于快速比较两个表示方式，并测量网络层的内在维度、学习动态、类特定信息和建议新的训练方案。

Jun, 2017

神经网络求解微分方程学习一般表示

使用奇异向量规范相关分析（SVCCA）技术，研究神经网络对于指定问题的普适性，并在求解基于泊松偏微分方程的参数化边界值问题的神经网络中，发现第一层神经网络具有普适性，而更深层次的神经网络则更具有针对性。

Jun, 2018

探究用于端到端语音识别的统计表示

分析了 transformer 架构中跨域语言模型依赖关系的研究，使用 SVCCA 发现转换器层中的特定神经表示具有相关行为，并影响识别性能。这项工作提供了有关模型方法的分析，这些模型方法影响了环境依赖关系和 ASR 性能，可以用于创建或调整性能更好的 End-to-End ASR 模型和下游任务。

Nov, 2022

自我监督的语音模型对单词的了解程度如何？

本研究发现，不同的自监督语音模型可以在不同的层次编码语言特征，在中间层最大程度地捕获了词级的信息，同时在较高层保留了发音等低层次信息，并用在无额外参数的情况下测试了这些模型的层次表现，同时发现使用 HuBERT 或 WavLM 的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。

Jun, 2023

自然语言多任务：分析和提高隐藏表示的句法显著性

训练多任务自动编码器进行语言任务，分析学习到的句子隐藏表示。加入翻译和词性解码器时，表示将显着改变。使用的解码器越多，模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构，得出很多有可识别句法结构的伪英语句子。最后，我们指出了模型的一个有意思的特性：两个句子之间的差分向量可以添加到第三个具有类似特征的句子中，以有意义的方式改变它。

Jan, 2018

借助多视角语言表示桥接语言类型学和多语机器翻译

将来自语言数据库和多语言机器翻译等任务的稀疏语言向量相结合，使用奇异向量典型相关分析方法进行研究，发现这两种方法的关联性可嵌入语言类型学和语言谱系学，实现了对多语种机器翻译的优化，而且无需大规模的多语种编排，便于新语种的测量。

Apr, 2020

语言相关性分析：在深度 NLP 模型中发现显著神经元

该研究利用 Linguistic Correlation Analysis 技术，定位和提取能够预测不同语言任务的少量神经元，研究表明深度 NLP 模型中神经元的学习特征高度分布和冗余，预训练模型的微调也会影响学习到的语言知识，同时还发现多语言变压器模型中的神经元分布具有相似性。

Jun, 2022