该研究提出了一种基于音频和文本联合训练的 SpeechBERT 模型,通过端对端地提取语音信息,解决了端到端口语问答任务中音频转换文本出现的问题,并且在包括 ASR 错误的数据集中表现出优异的性能。该模型可以为许多口语理解任务提供潜在的借鉴,其效果优于传统的级联 ASR 和 TQA 模型的方法。
Oct, 2019
该研究提出了一种名为 CADNet 的方法,该方法使用上下文化注意力分层蒸馏技术,从而在 SCQA 任务中更好地抵御 ASR 噪声,最终在 Spoken-CoQA 数据集上实现了显著性能提升。
Oct, 2020
提出了一种新的口语会话问答任务(SCQA),旨在使系统能够模拟复杂的对话流程,以便处理音频记录中的对话式问题,并探索从不同模态提供更多线索,通过 DDNet 方法有效地摄取跨模态信息以实现语音和语言模态的细粒度表示,并通过双向关注机制鼓励更好的音频和文本之间的对齐,以简化知识转移过程。通过 Spoken-CoQA 数据集,证明了跨模态信息融合的必要性,同时证明了提出的方法在口语会话问答任务中具有卓越的性能表现。
Apr, 2022
本文提出了基于自监督和对比表示学习的新型语音问答培训方案,采用多元增广策略以及时间对齐注意来更有效地指导生成模型,实现最佳答案预测解决方案,在三个 SQA 基准测试上取得了最新成果。
Sep, 2021
本研究通过自监督学习方式,包括不连贯性识别,插入检测以及问题预测,明确捕捉口语对话文档之间的指代消解和对话连贯性,提高了口语对话的意义和连贯性。在 Spoken-CoQA 数据集上取得了最先进的结果。
Jun, 2021
本研究提出了一种新的口头对话问答任务,能够使问答系统对给定的语音话语和文本语料库建模,其中使用了新的统一数据精炼方法 DDNet 直接融合音频文本特征以减少语音识别错误率,同时运用 Spoken-CoQA 数据集评估系统的对话式互动能力,并在实验中取得了优异的性能表现。
本文提出一种多选题智能生成系统,利用预训练的语言模型,根据规定的性能指标,通过读取理解语料库来生成语法准确,具有可回答性、多样性和复杂性的问题及选项。
Sep, 2022
本文提出一种用于低资源语言的提高问答技术的方法,即通过翻译和转写将问题回答样本扩充到目标语言,利用增广数据微调已经在英语中预训练的 mBERT 问答模型,并引入对翻译问题上下文特征对之间的对比损失来提高不同语言家族的翻译准确性。
该文提出了采用离散口语单元自适应学习(DUAL)方法,旨在解决当问答任务涉及到名称实体或生僻单词时,仍然能够从口语文本中获取正确答案的问题,同时发布了适用于更真实场景的新的 SQA 基准语料库 NMSQA。
Mar, 2022
本文提出了一种名为 SDNet 的上下文注意力深度神经网络模型,通过整合上下文理解对话场景并从文本中提取信息,同时引入最新的 BERT 模型,提高了对话问答的精度,表现优于之前的最佳模型并创造了最好的 CoQA 排行榜结果。
Dec, 2018