深入分析鸿沟：探索主题内外泛化之间的差距

ACLFeb, 2024

深入分析鸿沟：探索主题内外泛化之间的差距

Dive into the Chasm: Probing the Gap between In- and Cross-Topic Generalization

Andreas Waldis, Yufang Hou, Iryna Gurevych

TL;DR本研究通过三个基于探测的实验分析了各种预训练语言模型在同一主题与不同主题的数据上的泛化能力差异及其嵌入空间的鲁棒性，首次展示了不同模型在不同主题间的泛化差距，并评估了更大规模的模型对分析的相关性，结果表明多样化的预训练目标、架构规范化或数据去重有助于实现更鲁棒的模型并减少泛化差距，为跨不同泛化情境下的语言模型的深入理解与比较做出了贡献。

Abstract

pre-trained language models (LMs) perform well in in-topic setups, where training and testing data come from the same topics. However, they face challenges in →

pre-trained language models in-topic setups cross-topic scenarios generalization gaps embedding space

发现论文，激发创造

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

多语言大型语言模型的跨语言能力和知识障碍

通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Jun, 2024

梯度上升后训练增强了语言模型的泛化能力

本文发现使用梯度上升后训练预训练语言模型可以增强其零样本泛化能力，特别是使用 Gradient Ascent Post-training 方法可以让语言模型在 12 个不同的 NLP 任务上达到与 2-3 倍大的模型相媲美的水平，并且可以提高 LM 的泛化能力而无需进行任何特定任务的微调。

Jun, 2023

语言模型与跨语言序列标注之间的桥梁

本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距，并以多语言对齐为目标对跨语言机器阅读理解（xMRC）进行改进。实验结果表明，这些方法在多个 xSL 基准测试中取得了显著优越的结果，并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。

Apr, 2022

跨语言词汇适应的实证研究：高效生成式 LLM 推理

对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。

Feb, 2024

预训练语言模型的话语探测

本文使用七种预训练语言模型，运用七种篇章探测任务，将研究重点从句子级别上升到文档级别上，最终发现 BART 是捕获篇章信息能力最好的模型，但只有其编码器部分表现最佳，BERT 作为基准模型也出奇地表现良好，并且不同层次的模型对篇章信息的刻画效果，以及模型之间的差距巨大。

Apr, 2021

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

大型语言模型中知识基础的跨语言不一致性评估

这篇论文研究了大型语言模型（LLMs）中存在的跨语言的不一致性，并通过创新的评估方法和指标，综合评估了模型在语义、准确性和及时性方面的一致性，以提升对多语言能力和可解释性的理解和改进，为更强大和可靠的多语言模型的开发做出贡献。

Jul, 2024

探索 LLM 训练中跨语言对齐的出现

多语言大型语言模型通过隐式对齐语言和神经元重叠达到零 - shot 跨语言转移性能，本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性，同时探测到预训练过程中隐式对齐和多语言能力的退化现象，为多语言预训练动态提供了新的见解。

Jun, 2024

语言模型是否具备通用常识推理能力？

本论文分析了预训练语言模型在常识知识图谱中的应用能力，重点探讨了预训练语言模型在多个常识知识图谱、未见过的关系和新实体方面的泛化能力及其局限性，结果表明预训练语言模型能够适应多个知识图谱但在泛化到新的关系时表现不佳，而在未出现过的实体上的泛化能力有所提高，未来的工作应该探究如何改进基于预训练语言模型的常识挖掘任务的传递和归纳能力。

Jun, 2021