端到端口语对话问答：任务，数据集和模型

ACLApr, 2022

端到端口语对话问答：任务，数据集和模型

End-to-end Spoken Conversational Question Answering: Task, Dataset and Model

Chenyu You, Nuo Chen, Fenglin Liu, Shen Ge, Xian Wu...

TL;DR提出了一种新的口语会话问答任务（SCQA），旨在使系统能够模拟复杂的对话流程，以便处理音频记录中的对话式问题，并探索从不同模态提供更多线索，通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示，并通过双向关注机制鼓励更好的音频和文本之间的对齐，以简化知识转移过程。通过 Spoken-CoQA 数据集，证明了跨模态信息融合的必要性，同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。

Abstract

In spoken question answering, the systems are designed to answer questions from contiguous text spans within the related speech transcripts. However, the most natural way that human seek or test their knowledge is via human conversations. Therefore, we propose a new Spoken Conversational Question Answering task (SCQA), aiming at enabling the systems to model

spoken conversational question answering ddnet dual attention cross-modal information integration human conversations

发现论文，激发创造

面向端到端口语问答的数据蒸馏技术

本研究提出了一种新的口头对话问答任务，能够使问答系统对给定的语音话语和文本语料库建模，其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率，同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力，并在实验中取得了优异的性能表现。

Oct, 2020

基于上下文关注机制的口语会话问答知识转移

该研究提出了一种名为 CADNet 的方法，该方法使用上下文化注意力分层蒸馏技术，从而在 SCQA 任务中更好地抵御 ASR 噪声，最终在 Spoken-CoQA 数据集上实现了显著性能提升。

Oct, 2020

口语问答自学习的自监督对话学习

本研究通过自监督学习方式，包括不连贯性识别，插入检测以及问题预测，明确捕捉口语对话文档之间的指代消解和对话连贯性，提高了口语对话的意义和连贯性。在 Spoken-CoQA 数据集上取得了最先进的结果。

Jun, 2021

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集 CoQA，包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统 F1 得分为 65.4％，仍然有大量的改进空间。

Aug, 2018

DUAL：用于无文本口语问答的离散口语单位自适应学习

该文提出了采用离散口语单元自适应学习（DUAL）方法，旨在解决当问答任务涉及到名称实体或生僻单词时，仍然能够从口语文本中获取正确答案的问题，同时发布了适用于更真实场景的新的 SQA 基准语料库 NMSQA。

Mar, 2022

自监督对比跨模态表示学习用于口语问答

本文提出了基于自监督和对比表示学习的新型语音问答培训方案，采用多元增广策略以及时间对齐注意来更有效地指导生成模型，实现最佳答案预测解决方案，在三个 SQA 基准测试上取得了最新成果。

Sep, 2021

HeySQuAD：一个口语化问答数据集

本研究主要介绍了一个新的基于 HeySQuAD 数据集的 SQA 系统基准测试方法，该方法使用了包含 76k 个人类口述问题和 97k 个机器生成问题的问答数据集，证明了使用转录的口述问题进行训练可以显著提高系统的性能 (12.51%)，具有很高的实践价值。

Apr, 2023

GSQA：生成式口语问答的端到端模型

近期关于口语问答方面的研究表明，最新的端到端模型在提问回答方面取得了显著的进展，尤其是在提取性问题的选择上。然而，先前的研究主要集中在提取性问题上，这种基于提取的方法在直接提取答案的情况下是有效的，但在涉及抽象问题且答案不可直接提取的情况下则存在不足。为了弥补这一差距，我们首次引入了第一个端到端生成式口语问答模型（GSQA），以增强系统的抽象推理能力。我们的 GSQA 模型训练的挑战在于缺乏口语抽象问答数据集。我们建议使用文本模型进行初始化，并利用基于提取的问答数据集将文本生成模型的知识转移到口语生成模型上。实验结果表明，我们的模型在基于提取的问答数据集上的性能超过了先前的提取性模型 3％。此外，GSQA 模型仅在口语提取性问答数据集上进行了微调。尽管没有见过任何口语抽象问答数据，它仍然能够与级联模型的性能高度匹配。总而言之，我们的 GSQA 模型展示了到广泛问题范围的泛化潜力，从而进一步扩展了抽象问答的口语问答能力。

Dec, 2023

SDNet: 基于上下文语境的注意力深度网络，用于问答对话

本文提出了一种名为 SDNet 的上下文注意力深度神经网络模型，通过整合上下文理解对话场景并从文本中提取信息，同时引入最新的 BERT 模型，提高了对话问答的精度，表现优于之前的最佳模型并创造了最好的 CoQA 排行榜结果。

Dec, 2018

复杂的连续问答：学习在知识图谱上对话问答对

本文提出了一个任务，即 Complex Sequential QA，它结合了回答简单事实性问题和通过一系列有逻辑的问答匹配进行会话来进行复杂推理，本文也介绍了关于这个任务所需数据集，以及目前现有的模型在处理实际场景中还存在的不足。

Jan, 2018