鲁棒性自监督视听语音识别
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024
我们提出了一个基于强化学习的框架(MSRL),动态地协调模态不变和模态特异性的表示,从而稳定地提供互补信息,用于音视频语音识别任务,实验结果表明,此方法在 LRS3 数据集中取得了最新的成果。
Dec, 2022
使用简单且快速的音频自我监督学习方法,并进行音视频模型的有指导微调,可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争,并且更为高效和快速。
Dec, 2023
该论文提出了一种新颖的资源高效方法,利用任何训练过的自动语音识别(ASR)模型生成的语音表示来进行视觉语音识别(VSR)。通过远离最近文献中流行的资源密集型趋势,我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识,在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据,我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率(WER)。在有限标记数据的微调之后,词错误率降至 35%(LRS2)和 45.7%(LRS3)。我们的模型可以在几天内在单个消费级 GPU 上进行训练,并能够在老旧硬件上实时进行端到端的 VSR,为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。
Dec, 2023
本文针对音频和视频同时受损的多模态输入情况下的视音频说话人识别问题展开研究,通过分析现有模型的不足并引入多模态输入损坏模型来设计一个稳健的 AVSR 模型框架,即 AV-RelScore,通过可靠性得分确定可靠输入流并提高识别准确度。
Mar, 2023
提出了一种多层交叉注意力融合的视听语音识别方法,通过在不同的音频 / 视觉编码器层级融合各种模态,实现了每种模态的表示学习,实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能,并相对于前期系统获得了最多 3.17% 的相对改进,同时超过了第一名系统,获得了该数据集上的新的最先进 cpCER 为 29.13%。
Jan, 2024
AV-HuBERT 是自监督学习框架,用于从视频、音频中学习音视双方言的表征,可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上,使用 AV-HuBERT 的自我训练,口型阅读错误率降低到 26.9%,使用相同的表征进行语音识别的性能提高了 40%相对减少至 1.3%。
Jan, 2022
通过构建 SlideAVSR 数据集,这篇论文提出了一种用于科学论文解释视频的 AVSR 数据集,旨在为模型提供在演示录音中将语音话语转录为滑动演示文本的基准评估。同时,论文还介绍了一种名为 DocWhisper 的简单但有效的 AVSR 模型,它可以参考来自幻灯片的文本信息,并在 SlideAVSR 数据集上验证其有效性。
Jan, 2024
本文提出了一种基于视觉模态的无监督噪声适应方案,使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明,我们的方法在各种噪声和清晰条件下都达到了最先进水平,此外在视觉语音识别任务上也优于之前的最优水平。
Jun, 2023
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。
Nov, 2018