ODSQA: 开放领域口语问答数据集
本研究主要介绍了一个新的基于 HeySQuAD 数据集的 SQA 系统基准测试方法,该方法使用了包含 76k 个人类口述问题和 97k 个机器生成问题的问答数据集,证明了使用转录的口述问题进行训练可以显著提高系统的性能 (12.51%),具有很高的实践价值。
Apr, 2023
本文提出一种在 Common Crawl 项目的基础上,使用大规模、自然、多样化问答数据集进行领域内预训练的方法,该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置,展示了预训练在该任务中的潜力。
Oct, 2021
通过提出一个轻量级、端到端的框架并改进音频识别任务,本研究展示了大规模语言模型(LLMs)在处理多模态功能方面的能力,尤其是对于口语问答任务(SQA)的需求,以及语音和文本特征之间的精确对齐和深入交互。
Aug, 2023
我们介绍了 KazQAD 这个哈萨克斯坦的开放域问题回答数据集,可用于阅读理解和完整的 ODQA 设置,以及信息检索实验。该数据集包含近 6,000 个独特问题、提取的简短答案和将近 12,000 个段落级相关性判断。我们使用机器翻译、维基百科搜索和内部手动注释的组合来确保注释效率和数据质量。问题来自两个来源:从自然问题(NQ)数据集翻译而来的项目(仅用于训练)和哈萨克统一国家考试(UNT)的原始考题(用于开发和测试)。相关的文本语料库包含来自哈萨克斯坦维基百科的超过 800,000 个段落。作为补充数据集,我们发布了大约 61,000 个问题 - 段落 - 答案三元组,这些三元组已经被机器翻译成了哈萨克语。我们开发了基准检索器和阅读器,在检索(NDCG@10 = 0.389 MRR = 0.382)、阅读理解(EM = 38.5 F1 = 54.2)和完整的 ODQA(EM = 17.8 F1 = 28.7)设置下取得了合理的分数。然而,与英文 QA 集合的最新结果相比,这些结果要低得多,我们认为仍然有很大的改进空间。我们还表明目前的 OpenAI 的 ChatGPTv3.5 无法以可接受的质量回答 KazQAD 的测试问题(闭卷设置)。该数据集在创作公共许可证(CC BY-SA)下免费提供,链接为 https URL。
Apr, 2024
本研究提出了一种基于规则的开放域问答系统,可以回答来自相关上下文的任何领域的问题,使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意,同时分析了性能。
Mar, 2022
提出基于语音密集检索器 (SpeechDPR) 的端到端框架,用于 Open-domain SQA 问题的检索组件,通过从无监督 ASR (UASR) 和文本密集检索器 (TDR) 的级联模型中提取知识来学习句子级语义表示,初步实验表明该方法在语音识别错误较大时表现更为鲁棒。
Jan, 2024
本文提出一个新的听力理解任务 —— 口语 SQuAD,发现语音识别错误对机器理解的影响是灾难性的,提出了几种方法来减轻这种影响。
Apr, 2018
该文提出了采用离散口语单元自适应学习(DUAL)方法,旨在解决当问答任务涉及到名称实体或生僻单词时,仍然能够从口语文本中获取正确答案的问题,同时发布了适用于更真实场景的新的 SQA 基准语料库 NMSQA。
Mar, 2022
提出了一种新的口语会话问答任务(SCQA),旨在使系统能够模拟复杂的对话流程,以便处理音频记录中的对话式问题,并探索从不同模态提供更多线索,通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示,并通过双向关注机制鼓励更好的音频和文本之间的对齐,以简化知识转移过程。通过 Spoken-CoQA 数据集,证明了跨模态信息融合的必要性,同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。
Apr, 2022