多语言大型语言模型综述:语料库、对齐和偏差调查
通过研究204种语言的多语言大型语言模型(MLLMs)在不同语言上的表现,考察了预训练数据大小、资源可用性、语言家族和脚本类型等因素对模型性能的影响,并发现对于已知语言来说,预训练数据大小是最重要的因素,而对于未知语言来说,脚本类型和语言家族至关重要。模型大小和结构并不显著改变最重要的特征,这些研究结果为当前MLLMs的优势和局限性提供了有价值的见解,并希望指导更有效、公平的多语言自然语言处理系统的开发。
Apr, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
通过多语言对齐方法,本文研究了大型语言模型的多语言能力提升,发现即使在没有注释答案的情况下,仅通过问题翻译数据进行训练的语言模型能够在广泛的未见过的语言中获得显著的性能提升,并利用不同的设置和机理解释方法对多语言场景下的语言模型性能进行了全面分析。
May, 2024
多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面,并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外,还探讨了不同模型类型的独特特征,包括仅编码器模型、仅解码器模型和编码器-解码器模型。同时,还讨论了多语言大型语言模型的一个重要局限性,即多语言之间的相互影响问题,并探究了克服这一问题的当前尝试。
Jun, 2024
在大型语言模型(LLMs)时代,构建能够为全球用户提供服务的多语言大型语言模型(MLLMs)具有重要意义。然而,现有研究很少关注MLLMs的真实性。同时,当代多语言对齐技术在平衡大量语言方面常常存在严重的真实性差距,特别是那些与英语差距较大的语言。在我们的工作中,我们构建了一个用于多语言场景下真实性评估的基准,并探索了跨语言对齐事实以增强MLLMs真实性的方法。此外,我们提出了面向事实感知的多语言选择协同(FaMSS),以优化大量语言和不同数据类型之间的数据分配。实验结果表明,我们的方法可以有效减少多语言表示差异并增强LLMs的多语言能力。
Jun, 2024
基于大规模语言模型和多模态语言模型的数据与模型共同发展,通过数据的贡献提升多模态语言模型的性能,同时多模态语言模型也促进了数据的发展,为多模态语言模型社区提供了数据与模型共同发展的视角。
Jul, 2024
本文研究了大语言模型(LLMs)在多语言环境中的探测技术,解决了现有探测主要集中于英语的问题。通过对多个开源LLM模型的实验,发现高资源语言与低资源语言之间存在明显的性能差距,并强调了改进低资源语言建模的必要性。
Sep, 2024
本研究针对多语言大型语言模型(MLLMs)在非英语语言中的表现差距进行探讨,提出通过分析多语言模型的翻译行为来加强其零-shot学习能力。研究表明,保留与大幅度特征相关的权重并修剪其他权重的方法,可以显著提升MLLMs在非英语语言任务中的表现,展示了该方法的潜在影响。
Sep, 2024