NativQA: 多语种、与文化相协调的 LLM 自然查询
该研究提出了一个名为MLQA的多语言提取式问答(QA)评估基准,旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例,并使用一种新颖的对齐上下文策略,基于Wikipedia文章构建,以此作为现有提取式QA数据集的跨语言扩展。
Oct, 2019
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用13种专门设计的工具进行交互以回答问题。
Jun, 2023
使用大型语言模型生成问题回答数据集,尤其是针对低资源语言,存在领域知识和文化细微差别的困难;实验证明最佳的大型语言模型GPT-4 Turbo能够生成具备充分知识的印度尼西亚语问题,但在苏丹尼斯语上表现欠佳,凸显中资源语言与低资源语言之间的性能差异;此外,我们对各种大型语言模型在生成数据集上进行基准测试,结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。
Feb, 2024
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
通过介绍一个名为RepLiQA的新测试数据集,本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题,并通过对各种型号和规模的模型进行基准测试,揭示它们在不同情境条件下的性能差异。
Jun, 2024
提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题-回答对,并经过自动翻译和质量验证。人类评估显示,生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性,翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明,它们无法达到人类的准确性,部分模型的表现接近随机机会。这表明生成的数据集非平凡,并可用于评估低资源语言中的推理能力。
Jun, 2024
通过介绍CaLMQA,一个涵盖23种语言的2.6K多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了Indic-QA,这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用Gemini模型生成了一个合成数据集,用于创建给定段落的问题-回答对,随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体,并观察到它们的性能相对低下,特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。
Jul, 2024
本研究旨在解决现有大型语言模型在文化知识评估方面的不足,提出了一种新的评估工具CulturalBench,包含1,227个涵盖45个全球区域的问题。研究发现,尽管最先进的模型在某些区域表现出色,但普遍在南美和中东的问题上表现不佳,尤其在回答多答案问题时趋向于单一答案。
Oct, 2024