多模态注意力融合用于提升语音识别和音频事件分类

Dec, 2023

多模态注意力融合用于提升语音识别和音频事件分类

Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification

Anirudh S. Sundar, Chao-Han Huck Yang, David M. Chan, Shalini Ghosh, Venkatesh Ravichandran...

TL;DR使用自我监督目标进行大型基础模型的训练，然后在下游任务中进行微调已成为一种标准程序。我们介绍了多模态注意力融合（MAM）方法，通过零 - shot 范式，实现了从高资源模态（文本和图像）的注意力矩阵到资源受限领域（语音和音频）的知识转移。MAM 可将自动语音识别（ASR）模型的相对字错误率（WER）降低多达 6.70％，将音频事件分类（AEC）模型的相对分类错误率降低 10.63％。在一些数据 / 计算资源可用的情况下，我们提出了可学习的 MAM 方法，用于合并注意力矩阵，进一步将 ASR 的 WER 降低 2.90％，AEC 降低 18.42％，相对于微调方法。

Abstract

Training large foundation models using self-supervised objectives on unlabeled data, followed by fine-tuning on downstream tasks, has emerged as a standard procedure. Unfortunately, the efficacy of this approach

self-supervised objectives downstream tasks multimodal attention merging resource-constrained domains learnable-mam

发现论文，激发创造

基于双向注意力的语音文本多模态训练，提高语音识别能力

采用双向注意力机制的多模态学习方法，能够有效地提升语音表示的语言信息，增强文本的语音表示，从而使共享的 ASR 模型更适用于无配对的文本数据预训练，仅使用配对数据学习时，单词错误率减少了 6.15％，使用更多无配对文本数据时，错误率减少了 9.23％。

Nov, 2022

多模态数据和资源高效的设备导向语音检测与大型基础模型

通过消除触发短语的需要，本研究探索了使用流式音频录制的设备麦克风记录的信号来确定用户是否在与虚拟助手进行交流，通过将语音识别系统的最佳假设和解码器信号与音频编码器的声学表示结合为大型语言模型的输入特征来实现这一目标。使用低秩适应和前缀调整的组合来对 80,000 个或更少的多模式数据示例进行训练，我们将所提出的系统与单模式基线进行比较，结果表明多模式方法实现了更低的等错误率（EER），同时仅使用了训练数据的一小部分，并且低维度的专门音频表示比高维度的普通音频表示导致更低的错误率（EER）。

Dec, 2023

利用生成的图像和字幕训练多媒体事件提取

本文提出了一个名为 CAMEL 的跨模态增强多媒体事件学习方法（Cross-modality Augmented Multimedia Event Learning），它使用了人工生成的多模态训练数据，实现了领先水平，并在多媒体事件提取方面优于现有研究。

Jun, 2023

弱监督音频分类的多层注意力模型

本文提出了一个多级关注模型来解决弱标签音频分类问题。实验证明，与单级关注模型和 Google 基线相比，该模型在 Google 音频数据集上表现出更高的平均精度（mAP）。

Mar, 2018

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

基于低秩匹配注意力的跨模态特征融合对话情感识别方法

这篇论文提出了一种名为低秩匹配注意力方法的跨模态特征融合方法，可用于会话情感识别任务，并能够充分利用模态间的语义信息和模态内语境信息。实验证实该方法在诸多基准数据集上的表现均优于其他流行的跨模态融合方法。

Jun, 2023

通过联合注意力的递归融合实现音视频事件定位

本研究提出了一种新的多模态融合联合注意力机制，能够有效地从视听特征中学习联合表示，并通过递归式联合协同作用持续改进，从而在音视频事件定位任务中取得了明显的成果。

Aug, 2020

MaLa-ASR: 多媒体辅助的基于 LLM 的 ASR

提出了基于 LLM 的 ASR 模型 MaLa-ASR，可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率，通过在输入提示中添加关键词，可将有偏差的词错误率（B-WER）相对减少 46.0％和 44.2％，在该数据集上取得了新的 SOTA。

Jun, 2024

MAAS: 多模态分配用于活跃说话人检测

本文提出了将图形数据结构应用于音频和视觉信号融合的新方法，将多模式的音视频特征分配给先前检测到的语音事件，实现了 88.8％的 AV-ActiveSpeaker 数据集性能最优。

Jan, 2021