语音到语义:通过全神经接口共同改进 ASR 和 NLU
本文介绍了一些简单而有效的模型,以从自动语音识别模块获取的 N(N 为一个任意数)-best 解释中共同挖掘语音信号的语义信息,提高现代口语理解系统的性能。
Jan, 2020
本文提出了一种新颖的基于推理的端到端(E2E)口语语音理解(SLU)方法,通过在自动语音识别(ASR)的文本和音频嵌入上进行条件控制,流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解(NLU)组件生成语义解析。
Apr, 2022
这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构,用于意图分类,通过结合深度递归架构和标准数据增强,不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果,并且探讨了其对新措辞的普适性,结果表明,该模型在训练期间未见过的措辞上也能表现得相当不错。
Oct, 2019
本文研究了基于递归神经网络的联合模型在口语理解(SLU)中的应用,实验结果显示其在意图检测和语义插槽填充任务中表现良好,在嘈杂语音输入场景下也具有较好的性能。
Sep, 2016
提出使用循环神经网络 (RNN) 基于增量处理的方式进行口语语言理解 (SLU) 的意图检测,从而实现系统延迟更低的效果,同时不会显著降低 SLU 系统的准确性。
Oct, 2019
本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法,通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能,无需访问任何语义注释,该算法的效率在公共 CATSLU 数据集上得到了证明。
Jun, 2022
该论文讨论了使用深度学习技术进行自然语言理解的联合任务,包括意图检测和槽填充,介绍了 Spoken Language Understanding/Natural Language Understanding(SLU/NLU)技术和用于解决该问题的最新自然语言处理和深度学习技术,以及如何提高性能的一些方法。
Dec, 2022
我们提出了一个三步走的端到端 SLU 系统,将预训练的语音识别模型和语言模型有效地集成到 SLU 框架中,以用于序列生成任务。该系统在 ASR 和 LM 子网络的基础上进行预测,最终预测基于 ASR 和 LM 子网络的表示结果。我们的三步走 SLU 系统在两个基准 SLU 数据集(SLURP 和 SLUE)上表现出卓越性能,尤其在具有挑战性的音频对话中的表现更好。
Jul, 2023
该研究旨在构建一种新型的自动预测语音理解系统,该系统利用历史对话信息预测口语意图、对话行为、说话人角色和情感等四种属性,并采用自回归模型和无序训练方法,以应对不同 SLU 任务的高效率和低延迟问题。实验证明,该系统与任务特定的分类器相当,并可有效整合对话环境以进一步提高 SLU 性能。
May, 2023
本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”,该模型能够同时训练语音转文字、语音理解和文本理解任务,不仅可以在多个数据集上实现最优性能,还可用于零 - shot 端到端语音理解任务。
Dec, 2020