本文提出了一种基于编码器-解码器模型的语音到语义理解的端到端的方法,将自动语音识别模块和自然语言理解模块联合优化,中间文本表示对于预测语义特别是意图参数非常重要,并且整个系统的共同优化可以提高预测的准确性,尤其是参数单词错误率可以提高18%。
Sep, 2018
本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的SLU数据集Fluent Speech Commands进行实验以测试泛化能力。
Apr, 2019
本文提出了一种流式端到端框架,采用单向RNN和CTC标准进行训练,可以在线和增量地处理多个意图,实现了与最先进的非流式模型相当的精度,并在关键词检测任务中表现出高度的前途。
May, 2021
本文提出了一种可流式传输的多任务语义转换器模型,通过自回归的方式预测ASR和NLU标签,并使用语义解码器聚合以前预测的字块和槽标签,从而优化了E2E SLU模型,且在ASR和NLU指标上表现优于传统的两阶段E2E SLU模型。
Apr, 2022
本文研究了一种结合ASR和NLU功能的语音意图理解技术,将单个Conformer模型的不同组件以不同的方式进行组合,研究了各种方法的优劣,并提出了一种新的CTS方法来提高端到端模型的准确性和处理速度,相对于最佳的两阶段SLU识别方法,在计算成本更低的情况下达到了同样的意图准确率。
研究探索低资源语言环境下,使用拼音转录进行意图分类的方法构建基于语音理解系统,并发现相较于使用语音特征的系统,使用拼音转录的系统具有显著的分类性能提升。
May, 2022
本文对三种不同的系统进行了测试,分别为基于文本、基于格子以及基于多模态,研究了在不同情况下使用不同系统的表现;实验结果表明,使用更丰富的自动语音识别输出可以提高语言理解系统的性能,而跨模态的方法可以克服使用自动生成的文本时的问题,并获得约17.8%的相对改进。
Dec, 2022
本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务,包括问题回答、摘要、命名实体定位和对话行为分类,旨在补充现有基准测试并解决SLU评估领域的差距,为便于比较而发布了基准模型。
我们提出了一个三步走的端到端SLU系统,将预训练的语音识别模型和语言模型有效地集成到SLU框架中,以用于序列生成任务。该系统在ASR和LM子网络的基础上进行预测,最终预测基于ASR和LM子网络的表示结果。我们的三步走SLU系统在两个基准SLU数据集(SLURP和SLUE)上表现出卓越性能,尤其在具有挑战性的音频对话中的表现更好。
Jul, 2023
使用预训练模型和多语言设置,提出了一种统一的方法来进行End-to-End语音语言理解,包括词槽填充,通过在可用的大规模语音识别数据上进行预训练,该方法在多个数据集和跨语言任务上取得了显著的性能提升。
Oct, 2023