口语理解任务中，文本、声学和栅格表示的有效性

Dec, 2022

口语理解任务中，文本、声学和栅格表示的有效性

Effectiveness of Text, Acoustic, and Lattice-based representations in Spoken Language Understanding tasks

Esaú Villatoro-Tello, Srikanth Madikeri, Juan Zuluaga-Gomez, Bidisha Sharma, Seyyed Saeed Sarfjoo...

TL;DR本文对三种不同的系统进行了测试，分别为基于文本、基于格子以及基于多模态，研究了在不同情况下使用不同系统的表现；实验结果表明，使用更丰富的自动语音识别输出可以提高语言理解系统的性能，而跨模态的方法可以克服使用自动生成的文本时的问题，并获得约 17.8% 的相对改进。

Abstract

In this paper, we perform an exhaustive evaluation of different representations to address the intent classification problem in a Spoken Language Understanding (SLU) setup. We benchmark three types of systems to perform the SLU intent detection task: 1) text-based, 2) lattice-based, an

spoken language understanding intent classification multimodal automatic speech recognition crossmodal approaches

发现论文，激发创造

通过上下文学习和词混淆网络实现 ASR 鲁棒性口语语言理解

通过使用自动语音识别系统的网络输出来弥补语音模糊性，增强口语语言理解的结果，通过对置信网络的词语混淆进行实验，研究大型语言模型对嘈杂的语音转录本的鲁棒性，探讨在不同自动语音识别性能条件下的影响因素。

Jan, 2024

健壮口语理解的多模态音文结构

本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失，并提出一种多模态语言理解模块，利用自监督学习从语音和文本模态中获取特征，最终通过对音频信号和文本传输进行编码来获得更好的性能。

Jun, 2023

构建低资源语言口语理解系统

研究探索低资源语言环境下，使用拼音转录进行意图分类的方法构建基于语音理解系统，并发现相较于使用语音特征的系统，使用拼音转录的系统具有显著的分类性能提升。

May, 2022

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

文本已不再足够！基于个人资料的口语语言理解基准测试

本文提出 Profile-based Spoken Language Understanding（ProSLU）任务和包含知识图谱、用户资料和上下文意识信息的大规模中文数据集，并使用多级知识适配器，有效地融合支持信息进行句子级意图检测和标记级槽填充。实验结果表明，所有现有的基于文本的 SLU 模型在语义模糊的情况下无法工作，而我们提出的框架可以处理这种复杂情况。

Dec, 2021

无 ASR 语音语言理解的端到端架构

这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构，用于意图分类，通过结合深度递归架构和标准数据增强，不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果，并且探讨了其对新措辞的普适性，结果表明，该模型在训练期间未见过的措辞上也能表现得相当不错。

Oct, 2019

减少语音训练数据需求以构建口语理解系统

本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法，可以有效地构建端到端的语音理解系统，并在句意和实体两个任务上得到了验证，最终得出该方法可以在仅使用文本数据进行训练的情况下，达到与使用全部语音数据进行训练的系统性能相近的结果。

Feb, 2022

语音到语义：通过全神经接口共同改进 ASR 和 NLU

本文研究基于语音指令的自然语言理解问题，提出了一种端到端联合 SLU 模型，可以提取语音中自然语言指令及相关的归属槽位参数或命名实体，并且能够在硬件受限的设备上运行，提高隐私保护并降低服务器成本。

Aug, 2020

基于 RNN 的增量在线口语理解

提出使用循环神经网络 (RNN) 基于增量处理的方式进行口语语言理解 (SLU) 的意图检测，从而实现系统延迟更低的效果，同时不会显著降低 SLU 系统的准确性。

Oct, 2019