PrimeQA:面向最新多语言问答研发的主要资源库
该研究提出了一个名为MLQA的多语言提取式问答(QA)评估基准,旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例,并使用一种新颖的对齐上下文策略,基于Wikipedia文章构建,以此作为现有提取式QA数据集的跨语言扩展。
Oct, 2019
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
本文介绍了ParaQA数据集,它是一个用于基于知识图谱单轮会话的多重释义响应问答(QA)数据集。ParaQA数据集包含5000个问题-答案对,每个问题有2至8个不同的释义响应。我们提供了基准模型,并通过BLEU和METEOR等常用度量表说明了具有多个释义响应的优势。 ParaQA数据集可在一个持续的URI上公开获得,以便在研究社区中广泛使用和适应。
Mar, 2021
本文对2016至2021年所发表关于问答系统的各项研究进行了回顾与总结,发现多轮问答系统已取代了单轮问答系统的先前主导地位,这表明了其在提高人工智能对话系统方面的重要性,同时也描绘了开展更多进一步和有利的研究的未来研究方向。
Jun, 2021
本文提出一种在Common Crawl项目的基础上,使用大规模、自然、多样化问答数据集进行领域内预训练的方法,该方法可以用于open-domain question-answering任务中的零样本、低资源和微调设置,展示了预训练在该任务中的潜力。
Oct, 2021
该研究致力于针对电子商务应用中需要支持多语言的情况,建立一种跨语言的产品问答(PQA)系统,为了实现这一目标,它提出了一个包括12种语言在九个领域中的大规模标注跨语言PQA数据集,并评估了包括机器翻译在内的多种方法。作者强调,领域内的数据对跨语言排序任务非常重要,而候选的排序通常更喜欢基于运行时翻译的方法,而答案的生成更倾向于使用多语言方法,但是英语和跨语言测试集之间仍存在明显的性能差距。
May, 2023
为了解决会话式搜索系统中存在的问题,本文提出了PAQA,这是AmbiNQ数据集的扩展,通过考虑用户查询和文档中存在的歧义,生成相关的澄清问题,并评估各种模型以及检索过程对歧义检测和澄清问题生成的影响。
Feb, 2024
介绍了UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为EATS的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator和Seamless M4T)中选择和评估最佳翻译模型,并对UQA上的几个最先进的多语言问答模型进行基准测试,其中包括mBERT,XLM-RoBERTa和mT5,报告了有希望的结果。通过展示EATS对于创建其他语言和领域的高质量数据集的效果,证明了UQA对于开发和测试乌尔都语的多语言NLP系统以及增强现有模型的跨语言可迁移性是有价值的。UQA数据集和代码可在www.github.com/sameearif/UQA上公开获取。
May, 2024
通过介绍CaLMQA,一个涵盖23种语言的2.6K多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
提出了一个可扩展的框架NativQA,以母语构建与地域文化契合的自然问答(QA)多语种数据集MultiNativQA,为大型语言模型(LLM)的评估和调优提供支持,并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。
Jul, 2024