基于端到端神经变形器的口语理解
本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的SLU数据集Fluent Speech Commands进行实验以测试泛化能力。
Apr, 2019
本文研究基于语音指令的自然语言理解问题,提出了一种端到端联合SLU模型,可以提取语音中自然语言指令及相关的归属槽位参数或命名实体,并且能够在硬件受限的设备上运行,提高隐私保护并降低服务器成本。
Aug, 2020
本文介绍了一种基于可预训练的差分可训练模型和使用 Transformer 的层次化系统的语音识别模型,旨在提高其在商用语音助理中的应用性能。实验表明,与基准系统相比,在一些神经网络模型和数据集之上达到了较好的表现。在对数据进行了重新标注并进行了人工评估后,本文提出的方法的语义准确率得到了大幅提高,这显示出本文提出的方法在商用语音助理中的应用价值。
Jun, 2021
本文述及基于最近三年的神经网络技术,通过直接从语音信号中提取语义,取代传统的分类式自然语言处理方式,以 spoken language understanding 话题研究为主,在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展,并提出了得到明显改进的成果,概念误差率(CER)从现有最优系统的 13.6% 降至 11.2%。
Jun, 2021
本文提出了一种可流式传输的多任务语义转换器模型,通过自回归的方式预测ASR和NLU标签,并使用语义解码器聚合以前预测的字块和槽标签,从而优化了E2E SLU模型,且在ASR和NLU指标上表现优于传统的两阶段E2E SLU模型。
Apr, 2022
本文研究了利用深度神经网络的端到端口语理解模型(E2E SLU)在非英语智能家居背景下使用的语言特性,证明了优良的E2E SLU表现并不总是需要完美的ASR能力,并且E2E模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E模型通过音调信息识别语音命令概念。
Jul, 2022
本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务,包括问题回答、摘要、命名实体定位和对话行为分类,旨在补充现有基准测试并解决SLU评估领域的差距,为便于比较而发布了基准模型。
Dec, 2022
本研究通过利用自我监督的声学编码器,提取文本嵌入,结合联合CTC和SLU损失的方法,实现了语音理解任务的话语级SLU模型,并在DSTC2数据集上比SOTA对话行为分类模型提高4%绝对值,在SLURP数据集上比SOTA SLU模型提高1.3%绝对值。
May, 2023