本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素,并使用BERT和BiLSTM模型和《圣经》作为语料库进行了比较分析,结果表明,词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。
Sep, 2021
本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估,并讨论了未来的研究方向,最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。
Jul, 2023
通过进行类比研究,本文发现大型语言模型中存在一个与语言能力对应的核心区域,占据总模型参数的约1%。该核心区域表现出显著的维度依赖性,对特定维度上的单个参数的扰动可能导致语言能力的丧失。此外,我们观察到语言能力的提高并不一定伴随模型知识水平的提升,这可能暗示着与语言区分离的领域知识区域存在。总的来说,探索大型语言模型的功能区域为我们提供了有关其智能基础的见解。未来,我们将继续研究语言模型内部的知识区域及其之间的互动。
Oct, 2023
大型语言模型研究中发现的语言层次结构及其对语法任务的编码方式提供可解释性证据。
多语言模型(LLMs)中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。
Apr, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
多语言大型语言模型通过隐式对齐语言和神经元重叠达到零-shot 跨语言转移性能,本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性,同时探测到预训练过程中隐式对齐和多语言能力的退化现象,为多语言预训练动态提供了新的见解。
Jun, 2024
大语言模型在面对未知的相关语言和方言时会表现出性能下降现象,本论文通过对语言距离的建模和分析,提供了关于模型健壮性和任务特性对性能下降的洞察,为评估和缓解性能下降问题提供了便利
通过评估六种最先进的大型语言模型在跨语言任务上的表现,本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力,但在更深层次的跨语言知识转移上存在困难,揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法,有效减少了这些差距,甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。
本研究探讨了多语言大型语言模型(LLM)在语言间的向量空间对齐问题,这一过程存在一些不足之处。我们发现,较大的模型在不同语言之间的概念对齐质量较高,但通用性主要体现在类型相似的语言和抽象概念中。这项工作揭示了提示基础嵌入的对齐效果优于词嵌入,尽管其投影较不线性,表明一些隐式学习的对齐被提示方法有所破坏。
Oct, 2024