多语言大型语言模型的跨语言能力和知识障碍

Jun, 2024

多语言大型语言模型的跨语言能力和知识障碍

Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models

Lynn Chua, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar...

TL;DR通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Abstract

large language models (LLMs) are typically multilingual due to pretraining on diverse multilingual corpora. But can these models relate corresponding concepts across languages, effectively being crosslingual? Thi

large language models crosslingual knowledge transfer multilingual corpora inference-time mitigation methods fine-tuning

发现论文，激发创造

1+1>2：大型语言模型能否用作跨语言知识聚合器？

通过从不同语言中汇集知识，该研究介绍了一种增强大型语言模型在多语言环境下性能的方法。实验证明，该方法显著提升了性能，特别是在减少语言性能差异方面。

Jun, 2024

多语言大型语言模型综述：语料库、对齐和偏差调查

该研究分析了多语言大型语言模型（MLLMs）的关键问题，包括语言不平衡、多语言对齐和固有偏差，探讨 MLLMs 的全球语言表示能力、偏见和挑战，并提出了有前景的研究方向。

Apr, 2024

多语种是多语种 LLM

通过对 101 种语言进行全面分析，评估了大型语言模型（LLMs）的多语言能力，并将具有相似特征的语言分类为四个不同的象限，为调整这些语言提供可操作的指导。通过深入研究每个象限，阐明了其分类背后的理由，并提出了改进 LLMs 的多语言性能的具体属性。实验结果表明，现有的 LLMs 具有超出预期的多语言能力，并且通过关注每个象限中存在的不同属性，我们可以显著提高 LLMs 的多语言表现。

Nov, 2023

探索 LLM 训练中跨语言对齐的出现

多语言大型语言模型通过隐式对齐语言和神经元重叠达到零 - shot 跨语言转移性能，本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性，同时探测到预训练过程中隐式对齐和多语言能力的退化现象，为多语言预训练动态提供了新的见解。

Jun, 2024

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

多语言大型语言模型与多语言性诅咒

多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面，并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外，还探讨了不同模型类型的独特特征，包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时，还讨论了多语言大型语言模型的一个重要局限性，即多语言之间的相互影响问题，并探究了克服这一问题的当前尝试。

Jun, 2024

翻译是唯一需要吗？关于使用大型语言模型解决多语言任务的研究

我们提倡更多的努力来开发强大的多语种语言模型，而不仅仅是以英语为中心的语言模型。

Mar, 2024

通过仅使用平行数据训练的大型语言模型研究翻译能力

本研究引入了 PLUME（Parallel Language Model），该模型是由三个 2B LLMs 组成，采用不同词汇量（32k、128k 和 256k），并且完全基于加泰罗尼亚语为中心的平行语料进行训练。这些模型在 16 个有监督翻译方向和 56 个零样例下的翻译性能与之前的编码解码架构相当。利用这些模型，我们对 LLMs 的翻译能力进行了全面调查，探究其性能、提示的不同元素以及跨语言表示空间的影响。

Jun, 2024

超越英语的 LLMs：通过跨语言反馈扩展 LLMs 的多语言能力

通过构建两个数据集，将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言，并使用 DPO 算法对 LLMs 进行与人类反馈的对齐，实现了对 100 种语言的支持，从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。

Jun, 2024

对抗性数据集上跨语言迁移至资源较少的语言的鲁棒性

多语言语言模型（MLLMs）展现了强大的跨语言转移能力，本研究旨在调查源语言应用于目标语言的效果，特别是在扰动输入测试集的情况下，发现命名实体识别的跨语言转移主要取决于实体块的重叠，研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。

Mar, 2024