使用MultiQ评估大型语言模型的基础多语言能力

Mar, 2024

使用MultiQ评估大型语言模型的基础多语言能力

Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ

Carolin Holtermann, Paul Röttger, Timm Dill, Anne Lauscher

TL;DR研究表明，尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言，人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题，探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现，在一些语言中，这些模型在回答问题时表现得既忠实又准确，而大多数模型在忠实于回答问题时的准确性更高，但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释，发现了可能存在的相关性，值得进一步研究。

Abstract

large language models (LLMs) need to serve everyone, including a global majority of non-English speakers. However, most LLMs today, and open llms in particular, are often intended for use in just English (e.g. Ll

发现论文，激发创造

MKQA：面向多语言开放域问题回答的语言多样性基准测试

研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”（MKQA），包括10k个问题-答案对，跨越26种语言（总计260k个问题-答案对）。结果表明，即使在英语中，这个数据集也具有挑战性，尤其是在低资源语言中。

Jul, 2020

多语言问答模型的校准理解

这篇论文研究了多语言预训练语言模型在问答任务中的校准性质，包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况，以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术，并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。

Nov, 2023

重新思考基于生成的大型语言模型对语义理解的评估

通过对24种模型的11个评估标准进行综合评估，本文首先回顾了当前的评估方法——多项选择题回答（MCQA），并突出了MCQA的一些潜在缺点，接着引入了RWQ-Elo评分系统，通过24种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。

Mar, 2024

多选题是否能够有效地检测LLM的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

大型语言模型：优秀的自发多语种学习者——多语种标注数据是否必要？

通过多语言对齐方法，本文研究了大型语言模型的多语言能力提升，发现即使在没有注释答案的情况下，仅通过问题翻译数据进行训练的语言模型能够在广泛的未见过的语言中获得显著的性能提升，并利用不同的设置和机理解释方法对多语言场景下的语言模型性能进行了全面分析。

May, 2024

CaLMQA: 跨23种语言探索跨文化特定长篇问答

通过介绍CaLMQA，一个涵盖23种语言的2.6K多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024

M2QA：多领域多语言问答

通过引入多领域多语言问题回答基准M2QA，并利用其探索经过微调的模型、最新最先进的LLM的跨语言跨领域性能，以及研究模块化方法对领域和语言进行适应，我们发现模型类别内在领域-语言组合上具有相当大的性能差异，并且在所有模型规模上源语言-目标语言/领域组合之间存在显著的性能下降。我们证明了M2QA并未得到完全解决，需要新的方法来有效地传递语言和领域特定信息。

Jul, 2024

NativQA: 多语种、与文化相协调的 LLM 自然查询

提出了一个可扩展的框架NativQA，以母语构建与地域文化契合的自然问答（QA）多语种数据集MultiNativQA，为大型语言模型（LLM）的评估和调优提供支持，并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。

Jul, 2024

INDIC QA BENCHMARK：评估印度语系大语言模型问答能力的多语言基准

为了评估大型语言模型（LLMs）在非英语语言的上下文问题回答能力，我们引入了Indic-QA，这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务，其中既包括现有数据集，也包括翻译成印度语言的英语问题回答数据集。此外，我们使用Gemini模型生成了一个合成数据集，用于创建给定段落的问题-回答对，随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体，并观察到它们的性能相对低下，特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。

Jul, 2024