CaLMQA: 跨23种语言探索跨文化特定长篇问答
该研究提出了一个名为MLQA的多语言提取式问答(QA)评估基准,旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例,并使用一种新颖的对齐上下文策略,基于Wikipedia文章构建,以此作为现有提取式QA数据集的跨语言扩展。
Oct, 2019
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
大语言模型在自然语言处理领域中具有重要意义,然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力,需要更加健全的评估机制来衡量其性能。
Feb, 2024
使用大型语言模型生成问题回答数据集,尤其是针对低资源语言,存在领域知识和文化细微差别的困难;实验证明最佳的大型语言模型GPT-4 Turbo能够生成具备充分知识的印度尼西亚语问题,但在苏丹尼斯语上表现欠佳,凸显中资源语言与低资源语言之间的性能差异;此外,我们对各种大型语言模型在生成数据集上进行基准测试,结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。
Feb, 2024
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
构建了CVQA,一个新的多元文化多语言视觉问答基准,覆盖了28个国家的文化驱动图像和问题,包括26种语言和11种文字,共提供了9k个问题。针对CVQA对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。
Jun, 2024
通过介绍一个名为RepLiQA的新测试数据集,本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题,并通过对各种型号和规模的模型进行基准测试,揭示它们在不同情境条件下的性能差异。
Jun, 2024
提出了一个可扩展的框架NativQA,以母语构建与地域文化契合的自然问答(QA)多语种数据集MultiNativQA,为大型语言模型(LLM)的评估和调优提供支持,并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。
Jul, 2024
为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了Indic-QA,这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用Gemini模型生成了一个合成数据集,用于创建给定段落的问题-回答对,随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体,并观察到它们的性能相对低下,特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。
Jul, 2024
本研究旨在解决现有大型语言模型在文化知识评估方面的不足,提出了一种新的评估工具CulturalBench,包含1,227个涵盖45个全球区域的问题。研究发现,尽管最先进的模型在某些区域表现出色,但普遍在南美和中东的问题上表现不佳,尤其在回答多答案问题时趋向于单一答案。
Oct, 2024