MKQA:面向多语言开放域问题回答的语言多样性基准测试
该研究提出了一个名为MLQA的多语言提取式问答(QA)评估基准,旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例,并使用一种新颖的对齐上下文策略,基于Wikipedia文章构建,以此作为现有提取式QA数据集的跨语言扩展。
Oct, 2019
本文提出一种在Common Crawl项目的基础上,使用大规模、自然、多样化问答数据集进行领域内预训练的方法,该方法可以用于open-domain question-answering任务中的零样本、低资源和微调设置,展示了预训练在该任务中的潜力。
Oct, 2021
该论文提出了一种用于COQA多语言问题解答的系统,该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究,并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。
May, 2022
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
本研究通过对52个数据集和20种评估技术进行综述,详细研究了当前开放域问题回答领域的现状,提出了一种包含问题类型的多模态数据集新分类法,并对评估指标进行结构化整理和批判性分析,旨在为现代问答系统的强大评估提供框架,并指出了当前的挑战和未来研究发展的有希望的方向。
Jun, 2024
通过介绍CaLMQA,一个涵盖23种语言的2.6K多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
通过引入多领域多语言问题回答基准M2QA,并利用其探索经过微调的模型、最新最先进的LLM的跨语言跨领域性能,以及研究模块化方法对领域和语言进行适应,我们发现模型类别内在领域-语言组合上具有相当大的性能差异,并且在所有模型规模上源语言-目标语言/领域组合之间存在显著的性能下降。我们证明了M2QA并未得到完全解决,需要新的方法来有效地传递语言和领域特定信息。
Jul, 2024
我们提出了一种简化的方法来增强多语种知识图谱问答系统,将语言模型的处理流程中直接融入语言上下文和实体信息。通过使用预训练的多语种转换器型语言模型来处理主要输入和辅助数据,我们的方法显著提高了语言模型将自然语言查询准确转换为相关SPARQL查询的能力。我们在最新的QALD数据集上展示了有希望的结果,包括QALD-9-Plus和QALD-10。此外,我们还在中文和日文上介绍并评估了我们的方法,从而扩大了现有数据集的语言多样性。
Jul, 2024
提出了一个可扩展的框架NativQA,以母语构建与地域文化契合的自然问答(QA)多语种数据集MultiNativQA,为大型语言模型(LLM)的评估和调优提供支持,并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。
Jul, 2024
为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了Indic-QA,这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用Gemini模型生成了一个合成数据集,用于创建给定段落的问题-回答对,随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体,并观察到它们的性能相对低下,特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。
Jul, 2024