通过对抗域适应缓解语音识别误差对口语问答的影响
采用序列到序列模型解决语音识别误差对于开放域端到端对话生成的影响。将任务看做一个域适应问题,使用两个不同域的 ASR 转录和原始文本,并提出了两个独立编码器的模型,使其隐藏状态相似,并确保解码器预测相同的对话文本。实验结果表明该方法可以消除语音识别错误并帮助口语对话系统生成更相似于原始文本答案的响应。
Sep, 2017
本文提出一个新的听力理解任务 —— 口语 SQuAD,发现语音识别错误对机器理解的影响是灾难性的,提出了几种方法来减轻这种影响。
Apr, 2018
研究了语音接口与问答系统交互过程中的问题,使用数据增强技术来探究自然语音识别噪音对信息检索的影响。结果表明,自然语音识别噪音会对信息检索产生负面影响,提出使用数据增强来解决这个问题。
Sep, 2022
本文提出了一种简单的技术,通过机器翻译实现 ASR 误差校正的领域自适应,我们使用了 Google ASR 和 ASPIRE 模型进行了实验,结果显示我们的方法可以使 Google ASR 输出的字错率下降 7%,其 BLEU 分数绝对值提高了 4 点;同时,通过流下游任务 Speaker Diarization,我们还评估了 ASR 误差校正,并捕捉了由 ASR 更正而获得的说话人风格、语法、结构和语义改进。
Mar, 2020
本文探讨了如何同时适应新领域和限制模型在原领域的准确性降低的问题,提出了几种技术,如限制培训策略和规范化适配器模块,应用于 Google Speech Commands 和英国爱尔兰英语口音数据集,并在新的目标域上取得了良好的结果并限制了原始领域上的恶化。
Oct, 2022
本文提出了一种无监督自适应错误校正方法,可以在未见过的领域中恢复由领域差异引起的语音识别错误,使用伪标记技术生成学习样本,在持续学习中以减少过度拟合,并使用编码器 - 解码器校正模型结合其他信息以进一步提高适应性,实验结果表明,该方法相对于未自适应的 ASR 系统显著降低了单词错误率,并可用于其他适应方法以带来额外的 10% 的性能提升。
Sep, 2022
本文提出一种采用对抗训练框架来解决深度学习中新领域适应问题的方法,将传统 QA 模型和判别器组合,以对抗的方式进行训练,从而实现 QA 模型学习到领域不变特征,并在 MRQA Shared Task 2019 中取得了优于基线模型的性能。
Oct, 2019
该文提出了采用离散口语单元自适应学习(DUAL)方法,旨在解决当问答任务涉及到名称实体或生僻单词时,仍然能够从口语文本中获取正确答案的问题,同时发布了适用于更真实场景的新的 SQA 基准语料库 NMSQA。
Mar, 2022
通过在 500,000 个有噪声的句子的合成语料库中训练,并在多个语料库中进行评估,研究和减轻来自自动语音识别系统的噪声对几个问题回答任务的影响,并利用模型的置信度集成和对未知单词进行强制解码,从而提高了下游神经网络 QA 系统的准确性。
Aug, 2019