掩码音频文本编码器是有效的多模态重评分器

May, 2023

掩码音频文本编码器是有效的多模态重评分器

Masked Audio Text Encoders are Effective Multi-Modal Rescorers

Jinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan...

TL;DR本研究提出了一种多模态语言模型的再评分方法，即 Masked Audio Text Encoder (MATE)，将声学表征融入到 MLM 的输入空间中，通过对比学习来有效地对齐模态，证明了在目标领域数据不可用时，使用多模态重新评分器对 ASR 系统具有域泛化的益处。MATE 相比于仅使用文本数据的基准系统，在不同数据集上降低了 4％-16％的词错误率 (WER)。此外，即使在训练数据仅为 0.8 小时的情况下，MATE 仍比第一次通行证系统基线降低了 8％-23％的 WER。

Abstract

masked language models (MLMs) have proven to be effective for second-pass rescoring in automatic speech recognition (ASR) systems. In this work, we propose →

masked language models automatic speech recognition masked audio text encoder multi-modal rescorer domain generalization

发现论文，激发创造

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

MAE-AST: 带有遮蔽编码音频频谱变换器

本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言，我们将来自原模型中使用的高掩模比率（75%）的问题进行改进，并将 Masked Autoencoders are Scalable Vision Learners（MAE）的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略，在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中，我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估，并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。

Mar, 2022

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

MaLa-ASR: 多媒体辅助的基于 LLM 的 ASR

提出了基于 LLM 的 ASR 模型 MaLa-ASR，可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率，通过在输入提示中添加关键词，可将有偏差的词错误率（B-WER）相对减少 46.0％和 44.2％，在该数据集上取得了新的 SOTA。

Jun, 2024

使用遮蔽自编码器建模的遮蔽光谱图用于学习通用音频表示

本文提出了一种新的通过自编码集成原始音频数据的方法：Masked Spectrogram Modeling（MSM），并使用 Masked Autoencoders（MAE）进行自监督学习，这种方法在 HEAR 2021 NeurIPS Challenge 中取得了比传统方法更好的结果。

Apr, 2022

基于 Transformer 的端到端语音识别语义掩码

提出了一种基于语义掩蔽的正则化方法，使用注意力机制的编解码器模型，以及 transformer-based 模型，以提升 E2E 模型的训练效果。通过实验验证，在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。

Dec, 2019

MAESTRO: 通过模态匹配匹配语音文本表示

Maestro 是一个自我监督的训练方法，以统一从语音和文本模态中学到的表示。该算法通过序列对齐，持续预测和匹配来学习统一的表示，以用于自动语音识别（ASR）和语音翻译（ST）等下游实验。

Apr, 2022

4M：大规模多模态蒙版建模

通过提出一种名为 4M 的多模态训练方案，将文本、图像、几何和语义模态，以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练，论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势，并为多模态学习在视觉和其他领域的进一步探索提供了基础。

Dec, 2023