边缘上的口语理解
本研究提出了一种新颖的跨任务保护用户隐私的口语理解模型,通过利用隐藏层分离技术,将用户信息仅分布在特定部分的隐藏层中并移除其他类型信息,从而实现隐私安全的隐藏层。为了在效率和隐私之间取得良好的平衡,引入了一种新的模型预训练机制,即联合对抗训练,以进一步增强用户隐私。实验证明,该方法能将语音识别和身份识别攻击的准确性降低至随机猜测水平,同时对口语理解性能影响较小。
Mar, 2024
本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性,证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力,并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E 模型通过音调信息识别语音命令概念。
Jul, 2022
本文提出了一种新颖的基于推理的端到端(E2E)口语语音理解(SLU)方法,通过在自动语音识别(ASR)的文本和音频嵌入上进行条件控制,流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解(NLU)组件生成语义解析。
Apr, 2022
本文述及基于最近三年的神经网络技术,通过直接从语音信号中提取语义,取代传统的分类式自然语言处理方式,以 spoken language understanding 话题研究为主,在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展,并提出了得到明显改进的成果,概念误差率(CER)从现有最优系统的 13.6% 降至 11.2%。
Jun, 2021
探讨在类微控制器嵌入式设备上的口语理解(SLU),将设备上的执行与云端卸载结合在一起。通过在设备的语音输入中利用时间局部性,重复使用最近的 SLU 推断。我们的想法很简单:让设备将新输入与缓存结果进行匹配,并只将匹配不成功的输入卸载到云端进行完整的推断。实现这个想法,然而,是非常复杂的:设备需要以稳健、低成本的方式比较声学特征。为了达到这个目的,我们提出了 XYZ,一种适用于微型设备的语音缓存。它通过聚类的原始声音单元序列和音素序列两个级别来匹配语音输入,两个表示方法相辅相成,提供了成本 / 准确性的互补权衡。为了进一步提高准确性,我们的缓存是可以学习的:通过不匹配的以及卸载到云端的输入,它不断地微调设备的特征提取器(在云端的辅助下)。我们在一款现成的 STM32 微控制器上实现了 XYZ。实现的结果具有 2MB 的小内存占用量。在具有挑战性的语音基准测试中进行评估时,我们的系统能够在设备上解决 45% 至 90% 的输入,与卸载到流行的云语音服务相比,平均延迟降低了高达 80%。即使在对抗性环境(噪声环境、冷缓存或多个用户共享设备)中,我们的优势仍然显著。
Nov, 2023
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022
本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务,包括问题回答、摘要、命名实体定位和对话行为分类,旨在补充现有基准测试并解决 SLU 评估领域的差距,为便于比较而发布了基准模型。
Dec, 2022
本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。
Apr, 2019