语音与文本联合理解

Sep, 2023

Joint Audio and Speech Understanding

Yuan Gong, Alexander H. Liu, Hongyin Luo, Leonid Karlinsky, James Glass

TL;DR通过整合悄悄话作为感知模块和 LLaMA 作为推理模块，LTU-AS 机器学习模型可以同时识别和共同理解口语文本、语音相声和非语音音频事件 - 几乎可以从音频信号中感知到的一切。

Abstract

Humans are surrounded by audio signals that include both speech and non-speech sounds. The recognition and understanding of →

audio signals speech non-speech sounds machine learning model audio perception

发现论文，激发创造

语音到语义：通过全神经接口共同改进 ASR 和 NLU

本文研究基于语音指令的自然语言理解问题，提出了一种端到端联合 SLU 模型，可以提取语音中自然语言指令及相关的归属槽位参数或命名实体，并且能够在硬件受限的设备上运行，提高隐私保护并降低服务器成本。

Aug, 2020

AudioGPT：理解与生成语音、音乐、声音和说话人头像

本文提出了一种名为 AudioGPT 的多模 AI 系统，该系统结合了基础模型来处理复杂的音频信息和解决许多理解和生成任务，以及支持口语对话的输入 / 输出接口（ASR，TTS），并通过一系列实验证明了 AudioGPT 在多轮对话中具有语音、音乐、声音和对话理解和生成任务的能力。

Apr, 2023

朝向端到端口语理解

本文研究了口语理解系统的端到端学习方法，能够直接从音频特征中推断语义意义，而不需要中间文本表示。研究表明，该模型能够获得合理好的结果，并能直接从音频特征中捕捉语义注意力。

Feb, 2018

从联合音视频分析中学习类似单词的单位

本文提出了一种通过语音信号和图像区域的语义相关性，发现连续语音信号中类似于单词的语音单元，并将其与图像区域相关联的方法。这个模型能够有效地实现一种口语语言习得的形式，不使用常规的自动语音识别或文本传输，同时丰富学习词汇的语义含义及图像联系。

Jan, 2017

联合语音识别和音频字幕

为了更好地解释语音样本中的背景噪声，并对内容进行全面理解，我们提出了多种方法来实现自动语音识别和自动音频字幕的端对端联合建模，并使用混合干净语音和多种背景噪声的多任务数据集进行实验验证。

Feb, 2022

会话式人工智能的口语理解：近期进展和未来方向

该论文讨论了使用深度学习技术进行自然语言理解的联合任务，包括意图检测和槽填充，介绍了 Spoken Language Understanding/Natural Language Understanding（SLU/NLU）技术和用于解决该问题的最新自然语言处理和深度学习技术，以及如何提高性能的一些方法。

Dec, 2022

隐私保护的端到端口语言理解

本研究提出了一种新颖的跨任务保护用户隐私的口语理解模型，通过利用隐藏层分离技术，将用户信息仅分布在特定部分的隐藏层中并移除其他类型信息，从而实现隐私安全的隐藏层。为了在效率和隐私之间取得良好的平衡，引入了一种新的模型预训练机制，即联合对抗训练，以进一步增强用户隐私。实验证明，该方法能将语音识别和身份识别攻击的准确性降低至随机猜测水平，同时对口语理解性能影响较小。

Mar, 2024

利用 ASR N-best 假设来提高口语理解

本文介绍了一些简单而有效的模型，以从自动语音识别模块获取的 N（N 为一个任意数）-best 解释中共同挖掘语音信号的语义信息，提高现代口语理解系统的性能。

Jan, 2020

从音频到语义：端到端口语理解方法

本文提出了一种基于编码器 - 解码器模型的语音到语义理解的端到端的方法，将自动语音识别模块和自然语言理解模块联合优化，中间文本表示对于预测语义特别是意图参数非常重要，并且整个系统的共同优化可以提高预测的准确性，尤其是参数单词错误率可以提高 18%。

Sep, 2018

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022