大型语言模型在多种语言上的多语言性能量化

Apr, 2024

大型语言模型在多种语言上的多语言性能量化

Quantifying Multilingual Performance of Large Language Models Across Languages

Zihao Li, Yucheng Shi, Zirui Liu, Fan Yang, Ninghao Liu...

TL;DR评估低资源语言对大型语言模型（LLMs）性能的 Language Ranker 研究发现：不同语言上的LLMs性能排名大致相同，不同规模的LLMs具有相同的性能排序，LlaMa2在不同语言中的性能与预训练语料库的比例具有强相关性。

Abstract

The training process of large language models (llms) requires extensive text corpus. However, these data are often unevenly distributed in different languages. As a result, →

发现论文，激发创造

多语言大型语言模型还不能切换语言

本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示，虽然这些模型在使用零 / 少量提示时在某些任务中表现出色，但与较小的微调模型相比，它们的性能仍然有所不适。因此，研究者认为未来需要进一步研究来完全弥合这一差距。

May, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试

通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言上 LLM 的性能，我们需要解决数据污染等问题。

Nov, 2023

多语言语言模型的绩效驱动因素是什么？

通过研究204种语言的多语言大型语言模型（MLLMs）在不同语言上的表现，考察了预训练数据大小、资源可用性、语言家族和脚本类型等因素对模型性能的影响，并发现对于已知语言来说，预训练数据大小是最重要的因素，而对于未知语言来说，脚本类型和语言家族至关重要。模型大小和结构并不显著改变最重要的特征，这些研究结果为当前MLLMs的优势和局限性提供了有价值的见解，并希望指导更有效、公平的多语言自然语言处理系统的开发。

Apr, 2024

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

超越英语的LLMs：通过跨语言反馈扩展LLMs的多语言能力

通过构建两个数据集，将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言，并使用 DPO 算法对 LLMs 进行与人类反馈的对齐，实现了对 100 种语言的支持，从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。

Jun, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Jul, 2024

面向欧洲语言的跨语言大型语言模型评估

本研究解决了在多种欧洲语言中对大型语言模型（LLM）进行一致且有意义评估的挑战，尤其是多语种基准稀缺的问题。我们提出了一种针对欧洲语言的跨语言评估方法，利用翻译的五个广泛使用的基准测试评估40个LLM在21种欧洲语言中的能力，创建了新的多语种评估框架和数据集，从而推动了多语种LLM评估的进一步研究。

Oct, 2024

大型语言模型是否有英语口音？评估和改善多语言LLM的自然性

本研究解决了多语言大型语言模型在非英语输出中自然性不足的问题。通过引入新颖的自动语料库水平评估指标，评估了当前先进模型的词汇和句法自然性，并提出了一种有效的方法来提高目标语言的自然性。结果表明，模型在多语言环境中自然性的提升具有显著影响。

Oct, 2024

大型语言模型是否有英语口音？评估和改善多语言LLM的自然性

本研究针对当前多语言大型语言模型（LLMs）在非英语语言中自然性不足的问题，提出了新颖的自动语料库级别评估指标，用以考量多语言LLM输出的词汇和句法自然性。研究发现，大型语言模型在法语和中文中普遍表现出英语影响的模式，并提出了一种简便有效的对齐方法，以提高其在目标语言和领域的自然性，且不影响其在通用基准测试中的表现。

Oct, 2024