通过子种群分析理解语言模型中的领域学习
通过 SVCCA 算法,探索并比较神经网络语言模型的学习动态,结果显示词性先于主题进行学习,循环层逐渐类似于标注器,嵌入层则不同,这一研究对于改进自然语言处理模型的学习算法及更好地融合语言学信息具有指导意义。
Nov, 2018
利用奇异值典型相关分析 (SVCCA),我们分析了一个在 22 种语言上进行训练的多语言端到端语音翻译模型的表示学习。我们通过 SVCCA 估计了不同语言和层之间的表示相似性,增进了我们对多语言语音翻译功能及其与多语言神经机器翻译的潜在联系的理解。通过对分析的结论,我们提出了解除对低资源语言的数据限制,将其与语言相关的高资源语言相结合的方法,以提供更有效的多语言端到端语音翻译。
Oct, 2023
本研究使用 Singular Value Canonical Correlation Analysis(SVCCA)分析了包含 103 种语言的 NMT 模型,发现不同语言的编码器表示会基于语言相似性聚集,源语言和目标语言的表示相互依赖,并且高资源和 / 或语言相似性更强的语言在任意语言对上进行微调时更为稳健,这些结论对于跨语言转移学习非常重要,并进一步联系到现有的实证观察。
Sep, 2019
分析了 transformer 架构中跨域语言模型依赖关系的研究,使用 SVCCA 发现转换器层中的特定神经表示具有相关行为,并影响识别性能。这项工作提供了有关模型方法的分析,这些模型方法影响了环境依赖关系和 ASR 性能,可以用于创建或调整性能更好的 End-to-End ASR 模型和下游任务。
Nov, 2022
利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升,跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息,这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
Oct, 2023
以语义结构探测为方法,对来自不同家族(仅编码器、仅解码器、编码解码器)和大小的语言模型进行实验,评估其在语义文本相似度和自然语言推理方面的性能和层次动态,发现模型家族在性能和层次动态上存在显著差异,但结果大部分与模型大小无关。
Oct, 2023
本研究发现,不同的自监督语音模型可以在不同的层次编码语言特征,在中间层最大程度地捕获了词级的信息,同时在较高层保留了发音等低层次信息,并用在无额外参数的情况下测试了这些模型的层次表现,同时发现使用 HuBERT 或 WavLM 的最佳表现层可以实现与更复杂的方法相媲美的词分割和语义句子相似性的表现。
Jun, 2023
通过研究多模态大型语言模型的内部机制,我们在多语种研究的启发下,发现了多模态大型语言模型中的领域特定神经元,并研究了这些模型如何处理来自不同领域的特征。进一步地,我们提出了一个三阶段的语言模型模块框架,用于处理投影的图像特征,并使用逻辑镜头验证了这一假设。大量实验证明,虽然当前的多模态大型语言模型具备视觉问答的能力,但它们可能没有充分利用领域特定的信息。适当地操纵领域特定的神经元最多会导致 10% 的准确率变化,为未来跨领域、全方位的多模态大型语言模型的发展提供了启示。我们的代码将在论文通知后发布。
Jun, 2024
采用异步训练、领域发现及专家语言模型等方法,针对大规模稀疏语言模型进行了研究,实现了高效的语言模型训练。实验结果表明,针对语料库的聚类分析和专家模型的培训对于提升模型性能至关重要。
Mar, 2023