基于掩码多模态聚类预测的音视频语音表征学习
本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT,来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题,该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性,在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。
Jun, 2021
本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架,利用 LRS3 数据集的少量标记数据,在噪音干扰的情况下提高了超过 50% 的性能,并且比基于音频的模型将词错误率减少了 75% 以上。
Jan, 2022
本文提出了 u-HuBERT,它是一个能够利用模态失效的自监督预训练框架,可以在保持优秀性能的同时,实现单模型处理多模态的语音输入。
Jul, 2022
该论文介绍了一种混合方法,名为 conformer-enhanced AV-HuBERT,该方法在语音识别方面的表现进一步提高。该方法基于 AV-HuBERT,在一个清洁和嘈杂环境下分别实现了相对 WER 降低 7%和 16%。除此之外,该论文还提出了一个新的 1000 小时的普通话语音识别数据集 CSTS,通过预先训练,该方法相对于基线 AV-HuBERT 超过了 WeNet ASR 系统。conformer-enhanced AV-HuBERT 相对于基线 AV-HuBERT 系统,在 MISP 和 CMLR 上分别减少了 7%和 6%的 CER。
Feb, 2023
使用 AV-HuBERT 进行口型同步损失的计算,并引入三种新的口型同步评估指标,以提供全面的口型同步性能评估。实验结果和详细的消融研究表明了我们方法的有效性和提出的评估指标的实用性。
May, 2024
基于多模态自我监督学习(SSL)特征提取器的多模态视频伪造检测方法,利用音频和视觉模态之间的不一致性来提取视觉和声学特征,并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性,实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。
Nov, 2023
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024
本文提出使用视频变压器替换三维卷积进行视觉特征提取,从而提高音频 - 视觉自动语音识别的性能,并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明,该方法在 LRS3-TED 上取得了国际领先的性能表现。另外,在多人音频 - 视觉自动语音识别方面,该方法相对于三维卷积实现了平均降低 2% 的性能损失。
Jan, 2022
本文提出了两种新技术来改善音视频语音识别,通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位,以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明,使用相对较少的训练数据,该系统比复杂的前端和后端现有系统取得更好的性能。
Aug, 2023
本文采用统一的跨模态表示学习框架 VATLM,通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入,以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中,优化下游任务的结果表明,VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型,并且能够将不同的语言类型对齐到同一个语义空间。
Nov, 2022