u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

Jul, 2022

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

u-HuBERT: Unified Mixed-Modal Speech Pretraining And Zero-Shot Transfer to Unlabeled Modality

Wei-Ning Hsu, Bowen Shi

TL;DR本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Abstract

While audio-visual speech models can yield superior performance and robustness compared to audio-only models, their development and adoption are hindered by the lack of labeled and unlabeled audio-visual data and the cost to deploy one model per modality. In this paper, we present u-Hu

audio-visual speech self-supervised pre-training modality dropout zero-shot modality generalization speech recognition

发现论文，激发创造

基于掩码多模态聚类预测的音视频语音表征学习

AV-HuBERT 是自监督学习框架，用于从视频、音频中学习音视双方言的表征，可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上，使用 AV-HuBERT 的自我训练，口型阅读错误率降低到 26.9％，使用相同的表征进行语音识别的性能提高了 40％相对减少至 1.3％。

Jan, 2022

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Nov, 2022

利用单模态自监督学习实现多模态音视频语音识别

本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别，该方法在实验中表现出良好的效果，取得了相对改善 30% 的优越结果。

Feb, 2022

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

本文提出了一种名为 Cocktail HuBERT 的自监督学习框架，通过掩蔽伪源分离目标来泛化到混合语音领域，从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低，并且在 SUPERB 中的单说话人和多说话人任务上表现优异。

Mar, 2023

UniBoost: 无监督单模态预训练来提升零样本视觉语言任务能力

使用大规模非监督单模型预训练可以提高图像 - 文本匹配的零样本性能和模型理解图像和文本关系的能力

Jun, 2023

MS-HuBERT: 针对语音表示学习中的预训练与推理不匹配进行缓解的遮蔽语言模型方法

提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT，通过解决预训练和推理不匹配问题，以及利用模型能力更有效地使用多聚类遮蔽预测损失，相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能，并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务（如 ASR）性能的重要信息。

Jun, 2024

汉英双语中，使用改进的装订器增强音像 HUBERT 的实践

该论文介绍了一种混合方法，名为 conformer-enhanced AV-HuBERT，该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT，在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7％和 16％。除此之外，该论文还提出了一个新的 1000 小时的普通话语音识别数据集 CSTS，通过预先训练，该方法相对于基线 AV-HuBERT 超过了 WeNet ASR 系统。conformer-enhanced AV-HuBERT 相对于基线 AV-HuBERT 系统，在 MISP 和 CMLR 上分别减少了 7％和 6％的 CER。

Feb, 2023

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021