大型语言模型在多种语言上的多语言性能量化
本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示,虽然这些模型在使用零 / 少量提示时在某些任务中表现出色,但与较小的微调模型相比,它们的性能仍然有所不适。因此,研究者认为未来需要进一步研究来完全弥合这一差距。
May, 2023
通过对大型语言模型的评估,本文发现LLM-based evaluators在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现,研究发现这两个模型在多个任务上超过了 Llama 模型,尤其是在资源稀缺的语言中,其中 GPT-4 在更多的数据集上优于 PaLM2。然而,为了准确评估非英语语言上 LLM 的性能,我们需要解决数据污染等问题。
Nov, 2023
通过研究204种语言的多语言大型语言模型(MLLMs)在不同语言上的表现,考察了预训练数据大小、资源可用性、语言家族和脚本类型等因素对模型性能的影响,并发现对于已知语言来说,预训练数据大小是最重要的因素,而对于未知语言来说,脚本类型和语言家族至关重要。模型大小和结构并不显著改变最重要的特征,这些研究结果为当前MLLMs的优势和局限性提供了有价值的见解,并希望指导更有效、公平的多语言自然语言处理系统的开发。
Apr, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
通过构建两个数据集,将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言,并使用 DPO 算法对 LLMs 进行与人类反馈的对齐,实现了对 100 种语言的支持,从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。
Jun, 2024
本文探讨了当前大型语言模型评估框架的差异性和不足之处,填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析,提出了更为标准化和全面的评估机制,以提升自然语言处理领域的模型评估水平。研究发现,现有框架的改进将显著推动LLMs的性能评估和实际应用。
Jul, 2024
本研究解决了在多种欧洲语言中对大型语言模型(LLM)进行一致且有意义评估的挑战,尤其是多语种基准稀缺的问题。我们提出了一种针对欧洲语言的跨语言评估方法,利用翻译的五个广泛使用的基准测试评估40个LLM在21种欧洲语言中的能力,创建了新的多语种评估框架和数据集,从而推动了多语种LLM评估的进一步研究。
Oct, 2024
本研究解决了多语言大型语言模型在非英语输出中自然性不足的问题。通过引入新颖的自动语料库水平评估指标,评估了当前先进模型的词汇和句法自然性,并提出了一种有效的方法来提高目标语言的自然性。结果表明,模型在多语言环境中自然性的提升具有显著影响。
Oct, 2024
本研究针对当前多语言大型语言模型(LLMs)在非英语语言中自然性不足的问题,提出了新颖的自动语料库级别评估指标,用以考量多语言LLM输出的词汇和句法自然性。研究发现,大型语言模型在法语和中文中普遍表现出英语影响的模式,并提出了一种简便有效的对齐方法,以提高其在目标语言和领域的自然性,且不影响其在通用基准测试中的表现。
Oct, 2024