提出了一种多层交叉注意力融合的视听语音识别方法,通过在不同的音频 / 视觉编码器层级融合各种模态,实现了每种模态的表示学习,实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能,并相对于前期系统获得了最多 3.17% 的相对改进,同时超过了第一名系统,获得了该数据集上的新的最先进 cpCER 为 29.13%。
Jan, 2024
我们的研究聚焦于半监督 AVSL 中的伪标签方法,提出了一种名为 Cross Pseudo-Labeling(XPL)的新方法,通过交互学习和交叉精炼机制,避免偏见积累,并结合软伪标签和课程数据选择模块以实现稳定训练,实验证明 XPL 相较于现有方法在性能上显著优越,并在保持稳定性的同时有效减轻了确认偏见。
Mar, 2024
本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架,利用 LRS3 数据集的少量标记数据,在噪音干扰的情况下提高了超过 50% 的性能,并且比基于音频的模型将词错误率减少了 75% 以上。
Jan, 2022
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
我们提出了一个基于强化学习的框架(MSRL),动态地协调模态不变和模态特异性的表示,从而稳定地提供互补信息,用于音视频语音识别任务,实验结果表明,此方法在 LRS3 数据集中取得了最新的成果。
Dec, 2022
本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别,该方法在实验中表现出良好的效果,取得了相对改善 30% 的优越结果。
Feb, 2022
该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别(VSR)方法,通过使用 Whisper 模型,它可以进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能,并提供了大规模无标注多语言数据库的自动标签。
Sep, 2023
本文提出了一种跨模态全局交互和局部对齐 (GILA) 方法,从全局和局部角度捕捉音频 - 视觉 (A-V) 间的深层相关性,用于改善音频 - 视觉语音识别中的多模态表示,实验结果表明我们的方法优于现有的有监督学习方法。
May, 2023
本文提出了两种新技术来改善音视频语音识别,通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位,以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明,使用相对较少的训练数据,该系统比复杂的前端和后端现有系统取得更好的性能。
Aug, 2023
该论文提出了一种新颖的资源高效方法,利用任何训练过的自动语音识别(ASR)模型生成的语音表示来进行视觉语音识别(VSR)。通过远离最近文献中流行的资源密集型趋势,我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识,在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据,我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率(WER)。在有限标记数据的微调之后,词错误率降至 35%(LRS2)和 45.7%(LRS3)。我们的模型可以在几天内在单个消费级 GPU 上进行训练,并能够在老旧硬件上实时进行端到端的 VSR,为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。
Dec, 2023