通过音素序列和 ASR 假设之间的交叉注意力构建强健的口语理解

Mar, 2022

通过音素序列和 ASR 假设之间的交叉注意力构建强健的口语理解

Building Robust Spoken Language Understanding by Cross Attention between Phoneme Sequence and ASR Hypothesis

Zexun Wang, Yuquan Le, Yi Zhu, Yuming Zhao, Mingchao Feng...

TL;DR提出了一种新的基于交叉注意力的 SLU 模型 (CASLU)，通过利用语音的音素序列来对抗 ASR 误差，实现同时捕捉输入的语音和语义特征，并在下游 NLU 任务中提高鲁棒性，大量实验证明了其有效性。

Abstract

Building spoken language understanding (SLU) robust to Automatic Speech Recognition (ASR) errors is an essential issue for various voice-enabled virtual assistants. Considering that most ASR errors are caused by phonetic confusion between similar-sounding expressions, intuitively, leve

spoken language understanding automatic speech recognition phoneme sequence cross attention natural language understanding

发现论文，激发创造

通过上下文学习和词混淆网络实现 ASR 鲁棒性口语语言理解

通过使用自动语音识别系统的网络输出来弥补语音模糊性，增强口语语言理解的结果，通过对置信网络的词语混淆进行实验，研究大型语言模型对嘈杂的语音转录本的鲁棒性，探讨在不同自动语音识别性能条件下的影响因素。

Jan, 2024

健壮口语理解的多模态音文结构

本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失，并提出一种多模态语言理解模块，利用自监督学习从语音和文本模态中获取特征，最终通过对音频信号和文本传输进行编码来获得更好的性能。

Jun, 2023

对比学习：提高口语理解的 ASR 鲁棒性

本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

May, 2022

融合预训练的 ASR 和 LM 进行语音理解的序列生成

我们提出了一个三步走的端到端 SLU 系统，将预训练的语音识别模型和语言模型有效地集成到 SLU 框架中，以用于序列生成任务。该系统在 ASR 和 LM 子网络的基础上进行预测，最终预测基于 ASR 和 LM 子网络的表示结果。我们的三步走 SLU 系统在两个基准 SLU 数据集（SLURP 和 SLUE）上表现出卓越性能，尤其在具有挑战性的音频对话中的表现更好。

Jul, 2023

语音到语义：通过全神经接口共同改进 ASR 和 NLU

本文研究基于语音指令的自然语言理解问题，提出了一种端到端联合 SLU 模型，可以提取语音中自然语言指令及相关的归属槽位参数或命名实体，并且能够在硬件受限的设备上运行，提高隐私保护并降低服务器成本。

Aug, 2020

N-Best ASR Transformer: 使用多个 ASR 假设提高 SLU 性能

使用自动语音识别提供的多个文本替代方案，采用简化的表述方式，通过 transformer 模型 BERT 和 XLM-RoBERTa 对 N-best 替代方案的连接作为输人，提高了 Spoken Language Understanding 系统的性能。

Jun, 2021

动态时间感知的发言者角色和上下文关注在口语理解中的应用

该论文提出了一种基于注意力机制的网络，利用上下文和说话人角色进行时态信息的学习和自适应特征提取，从而显著提高了口语理解的性能。

Sep, 2017

低资源口语理解元辅助学习

本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法，通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能，无需访问任何语义注释，该算法的效率在公共 CATSLU 数据集上得到了证明。

Jun, 2022

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

无 ASR 语音语言理解的端到端架构

这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构，用于意图分类，通过结合深度递归架构和标准数据增强，不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果，并且探讨了其对新措辞的普适性，结果表明，该模型在训练期间未见过的措辞上也能表现得相当不错。

Oct, 2019