面向现实世界的口语方言问答
该研究提出了一个名为MLQA的多语言提取式问答(QA)评估基准,旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例,并使用一种新颖的对齐上下文策略,基于Wikipedia文章构建,以此作为现有提取式QA数据集的跨语言扩展。
Oct, 2019
我们提出了TyDi QA——一个问答数据集,涵盖11种语言,并进行数据质量的量化分析和例级定性语言分析,以提供有关多语言建模的有挑战性和值得信赖的评估。
Mar, 2020
研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”(MKQA),包括10k个问题-答案对,跨越26种语言(总计260k个问题-答案对)。结果表明,即使在英语中,这个数据集也具有挑战性,尤其是在低资源语言中。
Jul, 2020
本研究提出了一种新的口头对话问答任务,能够使问答系统对给定的语音话语和文本语料库建模,其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率,同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力,并在实验中取得了优异的性能表现。
Oct, 2020
本文研究Question-Answering系统在实际部署中的问题,发现在回答引擎之前的管道部件可能会引入多样化且可观的错误,而且即使是针对强大的预训练QA模型,性能也会因为这些上游噪声源而显著降低。作者认为在QA系统能够真正有效部署之前,还有很大的改进空间。因此,他们强调QA评估需要扩展到考虑实际使用情况,并希望他们的研究结果能引起更广泛的关注。
Feb, 2021
本文对2016至2021年所发表关于问答系统的各项研究进行了回顾与总结,发现多轮问答系统已取代了单轮问答系统的先前主导地位,这表明了其在提高人工智能对话系统方面的重要性,同时也描绘了开展更多进一步和有利的研究的未来研究方向。
Jun, 2021
本论文聚焦于在多语言环境下推进处理末端用户问题的 QA 技术,涉及多语性和混编等问题并提出了一种多文档利用的多跳问题生成技术,实验证明该方法可在 MQA、VQA 和语言生成等多个领域和语言中达到最先进的表现,是通用的,可用于提高 QA 系统性能。
Nov, 2022
通过提出一个轻量级、端到端的框架并改进音频识别任务,本研究展示了大规模语言模型(LLMs)在处理多模态功能方面的能力,尤其是对于口语问答任务(SQA)的需求,以及语音和文本特征之间的精确对齐和深入交互。
Aug, 2023
提出了一个可扩展的框架NativQA,以母语构建与地域文化契合的自然问答(QA)多语种数据集MultiNativQA,为大型语言模型(LLM)的评估和调优提供支持,并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。
Jul, 2024
为了评估大型语言模型(LLMs)在非英语语言的上下文问题回答能力,我们引入了Indic-QA,这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务,其中既包括现有数据集,也包括翻译成印度语言的英语问题回答数据集。此外,我们使用Gemini模型生成了一个合成数据集,用于创建给定段落的问题-回答对,随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体,并观察到它们的性能相对低下,特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。
Jul, 2024