多模态数据和资源高效的设备导向语音检测与大型基础模型

Dec, 2023

多模态数据和资源高效的设备导向语音检测与大型基础模型

Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models

Dominik Wagner, Alexander Churchill, Siddharth Sigtia, Panayiotis Georgiou, Matt Mirsamadi...

TL;DR通过消除触发短语的需要，本研究探索了使用流式音频录制的设备麦克风记录的信号来确定用户是否在与虚拟助手进行交流，通过将语音识别系统的最佳假设和解码器信号与音频编码器的声学表示结合为大型语言模型的输入特征来实现这一目标。使用低秩适应和前缀调整的组合来对 80,000 个或更少的多模式数据示例进行训练，我们将所提出的系统与单模式基线进行比较，结果表明多模式方法实现了更低的等错误率（EER），同时仅使用了训练数据的一小部分，并且低维度的专门音频表示比高维度的普通音频表示导致更低的错误率（EER）。

Abstract

interactions with virtual assistants typically start with a trigger phrase followed by a command. In this work, we explore the possibility

virtual assistants trigger phrase interactions multimodal data audio representations

发现论文，激发创造

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

语言引导的具身化智能体多模式语音识别

本文提出了一种多模式自动语音识别模型，通过考虑附带的视觉上下文来减少口头指令的错误转录，使用了仿真的噪声环境。实验结果表明，使用多模态 ASR 模型可使任务完成的准确性得到提高。

Feb, 2023

多模式大型语言模型与融合低秩适应用于设备定向语音检测

通过使用 FLoRA 技术，将预训练的单模态大型语言模型适应到新的未见模态上，可以有效地改进多模态语言模型在设备导向的语音检测上的性能，并且通过引入适配器丢弃机制，提高了鲁棒性和模型的可扩展性。

Jun, 2024

高效多模态神经网络用于无触发词语音助手

本研究提出了一种基于神经网络的音频手势多模式融合系统，用于改进语音助手在智能手表等低功耗设备上的使用，包括精确唤醒、适应性强、可部署性好、且提高了资产开发的效率。

May, 2023

情感识别的多模态和多视角模型

采用多种视图学习方法来结合语音和词汇信息，训练出不需要词汇输入的部署式语音模型，该模型采用对比损失函数进行训练，实验结果表明这种方法和传统的基于语音信息的方法相比，有更好的准确性和鲁棒性。

Jun, 2019

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

基于大型语言模型的多模态检索用于语音识别

提出 kNN-LM 和跨注意力技术两种方法的多模态检索，证明了其在语音识别任务上优于基于文本的检索方法，对多模态语言模型基准线具有最高水平的识别结果。

Jun, 2024

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

多模态注意力融合用于提升语音识别和音频事件分类

使用自我监督目标进行大型基础模型的训练，然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合（MAM）方法，通过零 - shot 范式，实现了从高资源模态（文本和图像）的注意力矩阵到资源受限领域（语音和音频）的知识转移。MAM 可将自动语音识别（ASR）模型的相对字错误率（WER）降低多达 6.70％，将音频事件分类（AEC）模型的相对分类错误率降低 10.63％。在一些数据 / 计算资源可用的情况下，我们提出了可学习的 MAM 方法，用于合并注意力矩阵，进一步将 ASR 的 WER 降低 2.90％，AEC 降低 18.42％，相对于微调方法。

Dec, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022