融合预训练的ASR和LM进行语音理解的序列生成

Jul, 2023

融合预训练的ASR和LM进行语音理解的序列生成

Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding

Siddhant Arora, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Brian Yan...

TL;DR我们提出了一个三步走的端到端SLU系统，将预训练的语音识别模型和语言模型有效地集成到SLU框架中，以用于序列生成任务。该系统在ASR和LM子网络的基础上进行预测，最终预测基于ASR和LM子网络的表示结果。我们的三步走SLU系统在两个基准SLU数据集（SLURP和SLUE）上表现出卓越性能，尤其在具有挑战性的音频对话中的表现更好。

Abstract

There has been an increased interest in the integration of pretrained speech recognition (ASR) and language models (LM) into the slu framework

发现论文，激发创造

面向端到端口语理解的语音模型预训练

本研究提出了一种新的减少训练数据量的语音理解模型，在预训练中通过预测单词和音素来学习关键特征，并使用新的SLU数据集Fluent Speech Commands进行实验以测试泛化能力。

Apr, 2019

以意传意，不在于言辞：面向口语理解的序列损失训练

本文提出了基于SLU度量标准的非可区分序列损失作为语义误差的代理，并使用REINFORCE技巧训练ASR和SLU模型。作者展示了自定义序列损失训练在开放SLU数据集上的最新技术水平，并在大型专有数据集上显示了6％的相对改进，同时提高了ASR和NLU性能指标。作者还展示了如何使用语义反馈单独更新ASR和SLU模型。

Feb, 2021

使用连续标记界面集成预训练网络进行端到端口语理解

本文提出了一种简单而健壮的端到端SLU模型所需的连续Token接口（CTI），从而使ASR和NLU网络获得网络集成。在确保仅使用预训练的网络时，我们在E2E方式下训练SLU网络，并在多任务学习下对异构数据进行培训，并在意图分类和插槽填充任务上实现最先进的性能。

Apr, 2021

N-Best ASR Transformer: 使用多个ASR假设提高SLU性能

使用自动语音识别提供的多个文本替代方案，采用简化的表述方式，通过 transformer 模型 BERT 和 XLM-RoBERTa 对 N-best 替代方案的连接作为输人，提高了 Spoken Language Understanding 系统的性能。

Jun, 2021

利用语义解码器的多任务RNN-T进行流式口语理解

本文提出了一种可流式传输的多任务语义转换器模型，通过自回归的方式预测ASR和NLU标签，并使用语义解码器聚合以前预测的字块和槽标签，从而优化了E2E SLU模型，且在ASR和NLU指标上表现优于传统的两阶段E2E SLU模型。

Apr, 2022

双通路低延迟端到端口语理解

本研究利用内部预训练的语言模型构建强大的语义表示，使用 2 段 SLU 系统，结合语义和语音特征进行高质量语音识别，以提高用户体验和降低延迟。

Jul, 2022

端到端口语理解: 低资源环境下语音命令任务的性能分析

本文研究了利用深度神经网络的端到端口语理解模型(E2E SLU)在非英语智能家居背景下使用的语言特性，证明了优良的E2E SLU表现并不总是需要完美的ASR能力，并且E2E模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现，E2E模型通过音调信息识别语音命令概念。

Jul, 2022

基于预训练SSL、ASR、LM和SLU模型的口语理解整合研究

本研究旨在探索使用预训练策略增强口语理解任务性能，通过自监督的语音和语言模型在SLU测评基准上进行实验，发现预训练模型可于低资源环境中提升结果，其中以预训练的语言和语音模型分别在情感分析和命名实体识别任务上效果最突出。

Nov, 2022

SLUE Phase-2: 一个不同语种口语理解任务的基准套件

本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务，包括问题回答、摘要、命名实体定位和对话行为分类，旨在补充现有基准测试并解决SLU评估领域的差距，为便于比较而发布了基准模型。

Dec, 2022

利用多语言自监督预训练模型进行序列到序列端到端口语理解

使用预训练模型和多语言设置，提出了一种统一的方法来进行End-to-End语音语言理解，包括词槽填充，通过在可用的大规模语音识别数据上进行预训练，该方法在多个数据集和跨语言任务上取得了显著的性能提升。

Oct, 2023