通过子种群分析理解语言模型中的领域学习

Oct, 2022

通过子种群分析理解语言模型中的领域学习

Understanding Domain Learning in Language Models Through Subpopulation Analysis

Zheng Zhao, Yftah Ziser, Shay B. Cohen

TL;DR通过基于子群分析和奇异向量标准相关分析（SVCCA）的一种主要分析工具，我们研究了现代神经网络体系结构中如何对不同的领域进行编码。我们发现增加模型容量会以不同的方式影响领域信息在不同层中的存储，并且较大的实验模型同时嵌入特定于领域的信息，就像它们是联合的对照模型一样。

Abstract

We investigate how different domains are encoded in modern neural network architectures. We analyze the relationship between natural language domains, →

neural network natural language model size training data subpopulation analysis

发现论文，激发创造

使用 SVCCA 理解语言模型的学习动态

通过 SVCCA 算法，探索并比较神经网络语言模型的学习动态，结果显示词性先于主题进行学习，循环层逐渐类似于标注器，嵌入层则不同，这一研究对于改进自然语言处理模型的学习算法及更好地融合语言学信息具有指导意义。

Nov, 2018

探索对多语言端到端语音翻译的深入理解

利用奇异值典型相关分析 (SVCCA)，我们分析了一个在 22 种语言上进行训练的多语言端到端语音翻译模型的表示学习。我们通过 SVCCA 估计了不同语言和层之间的表示相似性，增进了我们对多语言语音翻译功能及其与多语言神经机器翻译的潜在联系的理解。通过对分析的结论，我们提出了解除对低资源语言的数据限制，将其与语言相关的高资源语言相结合的方法，以提供更有效的多语言端到端语音翻译。

Oct, 2023

探究规模化多语言 NMT 表示

本研究使用 Singular Value Canonical Correlation Analysis（SVCCA）分析了包含 103 种语言的 NMT 模型，发现不同语言的编码器表示会基于语言相似性聚集，源语言和目标语言的表示相互依赖，并且高资源和 / 或语言相似性更强的语言在任意语言对上进行微调时更为稳健，这些结论对于跨语言转移学习非常重要，并进一步联系到现有的实证观察。

Sep, 2019

探究用于端到端语音识别的统计表示

分析了 transformer 架构中跨域语言模型依赖关系的研究，使用 SVCCA 发现转换器层中的特定神经表示具有相关行为，并影响识别性能。这项工作提供了有关模型方法的分析，这些模型方法影响了环境依赖关系和 ASR 性能，可以用于创建或调整性能更好的 End-to-End ASR 模型和下游任务。

Nov, 2022

子空间编年史：语言信息在语言模型训练中的产生、转变和交互

利用信息论探测套件，我们分析了 9 项任务，涵盖语法、语义和推理，在 2 百万次预训练步骤和 5 个种子中，识别了关键学习阶段，语法知识在全面训练的 0.5% 后迅速获得，持续性能改善主要来自对开放域知识的获取，而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升，跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息，这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。

Oct, 2023

预训练语言模型中的无监督域聚类

本文提出了一种基于大规模预训练语言模型的领域数据选择方法，通过度量句子的隐式相似性进行聚类，仅需要少量数据即可有效提高神经机器翻译的准确性。

Apr, 2020

通过线性结构探测研究变压器句子嵌入的语义子空间

以语义结构探测为方法，对来自不同家族（仅编码器、仅解码器、编码解码器）和大小的语言模型进行实验，评估其在语义文本相似度和自然语言推理方面的性能和层次动态，发现模型家族在性能和层次动态上存在显著差异，但结果大部分与模型大小无关。

Oct, 2023

自我监督的语音模型对单词的了解程度如何？

本研究发现，不同的自监督语音模型可以在不同的层次编码语言特征，在中间层最大程度地捕获了词级的信息，同时在较高层保留了发音等低层次信息，并用在无额外参数的情况下测试了这些模型的层次表现，同时发现使用 HuBERT 或 WavLM 的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。

Jun, 2023

MMNeuron：发现多模态大语言模型中的神经元级领域特定解释

通过研究多模态大型语言模型的内部机制，我们在多语种研究的启发下，发现了多模态大型语言模型中的领域特定神经元，并研究了这些模型如何处理来自不同领域的特征。进一步地，我们提出了一个三阶段的语言模型模块框架，用于处理投影的图像特征，并使用逻辑镜头验证了这一假设。大量实验证明，虽然当前的多模态大型语言模型具备视觉问答的能力，但它们可能没有充分利用领域特定的信息。适当地操纵领域特定的神经元最多会导致 10% 的准确率变化，为未来跨领域、全方位的多模态大型语言模型的发展提供了启示。我们的代码将在论文通知后发布。

Jun, 2024

使用非监督领域发现技术扩展专家级语言模型

采用异步训练、领域发现及专家语言模型等方法，针对大规模稀疏语言模型进行了研究，实现了高效的语言模型训练。实验结果表明，针对语料库的聚类分析和专家模型的培训对于提升模型性能至关重要。

Mar, 2023