SLUE: 自然语音口语理解评估新基准任务
本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务,包括问题回答、摘要、命名实体定位和对话行为分类,旨在补充现有基准测试并解决 SLU 评估领域的差距,为便于比较而发布了基准模型。
Dec, 2022
通过对多个受监督和自监督 SFMs 进行广泛评估,我们发现,尽管受监督的 SFMs 在语音识别数据上已经进行了预训练(带有标签),但并不总是表现优于自监督的 SFMs;后者在 SLUE 的序列生成任务上往往至少与受监督的 SFMs 表现一样出色,有时甚至更好。对于大多数任务来说,复杂预测头的性能最佳,尽管会增加推理时间。我们还引入了一个开源工具包和性能排行榜 SLUE-PERB,用于这些任务和建模策略。
Jun, 2024
本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性,证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力,并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E 模型通过音调信息识别语音命令概念。
Jul, 2022
本文述及基于最近三年的神经网络技术,通过直接从语音信号中提取语义,取代传统的分类式自然语言处理方式,以 spoken language understanding 话题研究为主,在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展,并提出了得到明显改进的成果,概念误差率(CER)从现有最优系统的 13.6% 降至 11.2%。
Jun, 2021
通过利用大型语言模型与多任务能力展示有希望的结果,我们构建了一个名为 UniverSLU 的单一多任务学习模型,它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时,我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示,并测试了该模型对新的释意表达的泛化能力。
Oct, 2023
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。
Apr, 2019
为了评估新的自然语言理解模型在一系列任务上的表现,我们引入了第一个越南语语言理解评估(VLUE)基准,涵盖了五个不同的 NLU 任务,包括文本分类、跨度提取和自然语言理解。我们评估了七个最先进的预训练模型在我们提出的 VLUE 基准上的表现,包括多语言和越南语单语模型,并提出了 CafeBERT,一个在 VLUE 基准中所有任务上都取得优秀结果的最新预训练模型。
Mar, 2024
本文提出了一种基于自动语音识别系统和预训练语言模型的语义解析系统,用于解决在 ICASSP 信号处理大挑战中为语音理解大挑战而提出的质量跟踪 (Track 1) 任务中的问题,并且在这个任务中获得了 80.8 的精确匹配准确率,从而获得了第一名。
May, 2023