健壮口语理解的多模态音文结构

Jun, 2023

Multimodal Audio-textual Architecture for Robust Spoken Language Understanding

Anderson R. Avila, Mehdi Rezagholizadeh, Chao Xing

TL;DR本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失，并提出一种多模态语言理解模块，利用自监督学习从语音和文本模态中获取特征，最终通过对音频信号和文本传输进行编码来获得更好的性能。

Abstract

Recent voice assistants are usually based on the cascade spoken language understanding (SLU) solution, which consists of an automatic speech recognition (ASR) engine and a natural language understanding (NLU) sys

voice assistants natural language understanding asr error propagation multimodal language understanding self-supervised features

发现论文，激发创造

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

模态可信度感知的鲁棒端到端口语理解训练

提出了一种增强对 ASR 错误鲁棒性的新型端到端（E2E）口语理解（SLU）系统，通过基于 ASR 假设的估计模态置信度融合音频和文本表示，来解决 E2E SLU 系统在文本表示质量低时的问题，并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。

Jul, 2023

通过上下文学习和词混淆网络实现 ASR 鲁棒性口语语言理解

通过使用自动语音识别系统的网络输出来弥补语音模糊性，增强口语语言理解的结果，通过对置信网络的词语混淆进行实验，研究大型语言模型对嘈杂的语音转录本的鲁棒性，探讨在不同自动语音识别性能条件下的影响因素。

Jan, 2024

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

语音到语义：通过全神经接口共同改进 ASR 和 NLU

本文研究基于语音指令的自然语言理解问题，提出了一种端到端联合 SLU 模型，可以提取语音中自然语言指令及相关的归属槽位参数或命名实体，并且能够在硬件受限的设备上运行，提高隐私保护并降低服务器成本。

Aug, 2020

低资源口语理解元辅助学习

本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法，通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能，无需访问任何语义注释，该算法的效率在公共 CATSLU 数据集上得到了证明。

Jun, 2022

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

利用 ASR N-best 假设来提高口语理解

本文介绍了一些简单而有效的模型，以从自动语音识别模块获取的 N（N 为一个任意数）-best 解释中共同挖掘语音信号的语义信息，提高现代口语理解系统的性能。

Jan, 2020

口语理解任务中，文本、声学和栅格表示的有效性

本文对三种不同的系统进行了测试，分别为基于文本、基于格子以及基于多模态，研究了在不同情况下使用不同系统的表现；实验结果表明，使用更丰富的自动语音识别输出可以提高语言理解系统的性能，而跨模态的方法可以克服使用自动生成的文本时的问题，并获得约 17.8% 的相对改进。

Dec, 2022

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022