面向现实世界的口语方言问答

Sep, 2021

SD-QA: Spoken Dialectal Question Answering for the Real World

Fahim Faisal, Sharlina Keshava, Md Mahfuz ibn Alam, Antonios Anastasopoulos

TL;DR本文介绍了一个针对多个语言方言创建的语音问答数据集，分析了语音识别错误和方言对问答系统性能的影响，并且研究了不同用户群体的公平性问题。

Abstract

question answering (QA) systems are now available through numerous commercial applications for a wide variety of domains, serving millions of users that interact with them via speech interfaces. However, current benchmarks in QA research do not account for the errors that →

发现论文，激发创造

MLQA：评估跨语言抽取式问答

该研究提出了一个名为MLQA的多语言提取式问答（QA）评估基准，旨在推动跨语言QA研究。 MLQA包含7种语言的QA实例，并使用一种新颖的对齐上下文策略，基于Wikipedia文章构建，以此作为现有提取式QA数据集的跨语言扩展。

Oct, 2019

TyDi QA: 基于语言类型多样性的信息搜索问答基准

我们提出了TyDi QA——一个问答数据集，涵盖11种语言，并进行数据质量的量化分析和例级定性语言分析，以提供有关多语言建模的有挑战性和值得信赖的评估。

Mar, 2020

MKQA：面向多语言开放域问题回答的语言多样性基准测试

研究跨语言建模的进展取决于具有挑战性、真实性和多样性的评估集。本文提出了一种开放领域的问题回答评估集“Multilingual Knowledge Questions and Answers”（MKQA），包括10k个问题-答案对，跨越26种语言（总计260k个问题-答案对）。结果表明，即使在英语中，这个数据集也具有挑战性，尤其是在低资源语言中。

Jul, 2020

面向端到端口语问答的数据蒸馏技术

本研究提出了一种新的口头对话问答任务，能够使问答系统对给定的语音话语和文本语料库建模，其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率，同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力，并在实验中取得了优异的性能表现。

Oct, 2020

NoiseQA: 以用户为中心的问答挑战数据集评估

本文研究Question-Answering系统在实际部署中的问题，发现在回答引擎之前的管道部件可能会引入多样化且可观的错误，而且即使是针对强大的预训练QA模型，性能也会因为这些上游噪声源而显著降低。作者认为在QA系统能够真正有效部署之前，还有很大的改进空间。因此，他们强调QA评估需要扩展到考虑实际使用情况，并希望他们的研究结果能引起更广泛的关注。

Feb, 2021

会话式问答：综述

本文对2016至2021年所发表关于问答系统的各项研究进行了回顾与总结，发现多轮问答系统已取代了单轮问答系统的先前主导地位，这表明了其在提高人工智能对话系统方面的重要性，同时也描绘了开展更多进一步和有利的研究的未来研究方向。

Jun, 2021

学习回答多语言和混合代码问题

本论文聚焦于在多语言环境下推进处理末端用户问题的 QA 技术，涉及多语性和混编等问题并提出了一种多文档利用的多跳问题生成技术，实验证明该方法可在 MQA、VQA 和语言生成等多个领域和语言中达到最先进的表现，是通用的，可用于提高 QA 系统性能。

Nov, 2022

LibriSQA：以新颖的数据集和框架进行自由形式和开放式口语问答的先驱

通过提出一个轻量级、端到端的框架并改进音频识别任务，本研究展示了大规模语言模型（LLMs）在处理多模态功能方面的能力，尤其是对于口语问答任务（SQA）的需求，以及语音和文本特征之间的精确对齐和深入交互。

Aug, 2023

NativQA: 多语种、与文化相协调的 LLM 自然查询

提出了一个可扩展的框架NativQA，以母语构建与地域文化契合的自然问答（QA）多语种数据集MultiNativQA，为大型语言模型（LLM）的评估和调优提供支持，并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。

Jul, 2024

INDIC QA BENCHMARK：评估印度语系大语言模型问答能力的多语言基准

为了评估大型语言模型（LLMs）在非英语语言的上下文问题回答能力，我们引入了Indic-QA，这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务，其中既包括现有数据集，也包括翻译成印度语言的英语问题回答数据集。此外，我们使用Gemini模型生成了一个合成数据集，用于创建给定段落的问题-回答对，随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体，并观察到它们的性能相对低下，特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。

Jul, 2024