u-HuBERT:统一的混合模态语音预训练与零样本迁移到未标记模态
AV-HuBERT 是自监督学习框架,用于从视频、音频中学习音视双方言的表征,可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上,使用 AV-HuBERT 的自我训练,口型阅读错误率降低到 26.9%,使用相同的表征进行语音识别的性能提高了 40%相对减少至 1.3%。
Jan, 2022
本文采用统一的跨模态表示学习框架 VATLM,通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入,以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中,优化下游任务的结果表明,VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型,并且能够将不同的语言类型对齐到同一个语义空间。
Nov, 2022
本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别,该方法在实验中表现出良好的效果,取得了相对改善 30% 的优越结果。
Feb, 2022
基于多模态自我监督学习(SSL)特征提取器的多模态视频伪造检测方法,利用音频和视觉模态之间的不一致性来提取视觉和声学特征,并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性,实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。
Nov, 2023
本文提出了一种名为 Cocktail HuBERT 的自监督学习框架,通过掩蔽伪源分离目标来泛化到混合语音领域,从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低,并且在 SUPERB 中的单说话人和多说话人任务上表现优异。
Mar, 2023
提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT,通过解决预训练和推理不匹配问题,以及利用模型能力更有效地使用多聚类遮蔽预测损失,相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能,并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务(如 ASR)性能的重要信息。
Jun, 2024
该论文介绍了一种混合方法,名为 conformer-enhanced AV-HuBERT,该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT,在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7%和 16%。除此之外,该论文还提出了一个新的 1000 小时的普通话语音识别数据集 CSTS,通过预先训练,该方法相对于基线 AV-HuBERT 超过了 WeNet ASR 系统。conformer-enhanced AV-HuBERT 相对于基线 AV-HuBERT 系统,在 MISP 和 CMLR 上分别减少了 7%和 6%的 CER。
Feb, 2023
本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法,其中包括四个自监督和有监督的子任务以进行跨模态学习,其贡献在于将文本语料库中的语言信息整合到语音预训练中。
Apr, 2022
本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT,来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题,该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性,在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。
Jun, 2021