ODSQA: 开放领域口语问答数据集

Aug, 2018

ODSQA: Open-domain Spoken Question Answering Dataset

Chia-Hsuan Lee, Shang-Ming Wang, Huan-Cheng Chang, Hung-Yi Lee

TL;DR本文介绍一个包含超过三千个问题的开放领域口语问答数据集，研究发现自动语音识别误差对于口语问答有灾难性影响，本文提出将子词单元用于缓解该问题，同时通过对基于文本问答的训练样本进行数据扩增，提高了口语问答的表现。

Abstract

Reading comprehension by machine has been widely studied, but machine comprehension of spoken content is still a less investigated problem. In this paper, we release Open-Domain Spoken question answering Dataset

machine comprehension spoken content question answering asr errors data augmentation

发现论文，激发创造

HeySQuAD：一个口语化问答数据集

本研究主要介绍了一个新的基于 HeySQuAD 数据集的 SQA 系统基准测试方法，该方法使用了包含 76k 个人类口述问题和 97k 个机器生成问题的问答数据集，证明了使用转录的口述问题进行训练可以显著提高系统的性能 (12.51%)，具有很高的实践价值。

Apr, 2023

CCQA：用于模型预训练的新型 Web 规模问答数据集

本文提出一种在 Common Crawl 项目的基础上，使用大规模、自然、多样化问答数据集进行领域内预训练的方法，该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置，展示了预训练在该任务中的潜力。

Oct, 2021

LibriSQA：以新颖的数据集和框架进行自由形式和开放式口语问答的先驱

通过提出一个轻量级、端到端的框架并改进音频识别任务，本研究展示了大规模语言模型（LLMs）在处理多模态功能方面的能力，尤其是对于口语问答任务（SQA）的需求，以及语音和文本特征之间的精确对齐和深入交互。

Aug, 2023

KazQAD: 哈萨克语开放域问答数据集

我们介绍了 KazQAD 这个哈萨克斯坦的开放域问题回答数据集，可用于阅读理解和完整的 ODQA 设置，以及信息检索实验。该数据集包含近 6,000 个独特问题、提取的简短答案和将近 12,000 个段落级相关性判断。我们使用机器翻译、维基百科搜索和内部手动注释的组合来确保注释效率和数据质量。问题来自两个来源：从自然问题（NQ）数据集翻译而来的项目（仅用于训练）和哈萨克统一国家考试（UNT）的原始考题（用于开发和测试）。相关的文本语料库包含来自哈萨克斯坦维基百科的超过 800,000 个段落。作为补充数据集，我们发布了大约 61,000 个问题 - 段落 - 答案三元组，这些三元组已经被机器翻译成了哈萨克语。我们开发了基准检索器和阅读器，在检索（NDCG@10 = 0.389 MRR = 0.382）、阅读理解（EM = 38.5 F1 = 54.2）和完整的 ODQA（EM = 17.8 F1 = 28.7）设置下取得了合理的分数。然而，与英文 QA 集合的最新结果相比，这些结果要低得多，我们认为仍然有很大的改进空间。我们还表明目前的 OpenAI 的 ChatGPTv3.5 无法以可接受的质量回答 KazQAD 的测试问题（闭卷设置）。该数据集在创作公共许可证（CC BY-SA）下免费提供，链接为 https URL。

Apr, 2024

面向现实世界的口语方言问答

本文介绍了一个针对多个语言方言创建的语音问答数据集，分析了语音识别错误和方言对问答系统性能的影响，并且研究了不同用户群体的公平性问题。

Sep, 2021

基于规则的开放域问答系统在 SQuAD v2.0 数据集上的设计与开发

本研究提出了一种基于规则的开放域问答系统，可以回答来自相关上下文的任何领域的问题，使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意，同时分析了性能。

Mar, 2022

SpeechDPR: 开放领域口语问答的端到端口语段落检索

提出基于语音密集检索器 (SpeechDPR) 的端到端框架，用于 Open-domain SQA 问题的检索组件，通过从无监督 ASR (UASR) 和文本密集检索器 (TDR) 的级联模型中提取知识来学习句子级语义表示，初步实验表明该方法在语音识别错误较大时表现更为鲁棒。

Jan, 2024

Spoken SQuAD: 降低语音识别错误对听力理解的影响研究

本文提出一个新的听力理解任务 —— 口语 SQuAD，发现语音识别错误对机器理解的影响是灾难性的，提出了几种方法来减轻这种影响。

Apr, 2018

DUAL：用于无文本口语问答的离散口语单位自适应学习

该文提出了采用离散口语单元自适应学习（DUAL）方法，旨在解决当问答任务涉及到名称实体或生僻单词时，仍然能够从口语文本中获取正确答案的问题，同时发布了适用于更真实场景的新的 SQA 基准语料库 NMSQA。

Mar, 2022

端到端口语对话问答：任务，数据集和模型

提出了一种新的口语会话问答任务（SCQA），旨在使系统能够模拟复杂的对话流程，以便处理音频记录中的对话式问题，并探索从不同模态提供更多线索，通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示，并通过双向关注机制鼓励更好的音频和文本之间的对齐，以简化知识转移过程。通过 Spoken-CoQA 数据集，证明了跨模态信息融合的必要性，同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。

Apr, 2022