适应说话者的端到端连续西班牙语视觉语音识别
本文介绍了一个半自动注释的音视频数据库,用于处理自由自然的西班牙语,提供了来自西班牙电视的 13 小时数据。此外,报告了基于隐马尔可夫模型的发言人相关和发言人无关情景的基准结果,这是一种在语音技术领域广泛使用的传统范式。
Nov, 2023
我们提出了一种分析不同语音视觉特征的方法,以确定哪种方法最适合捕捉西班牙语口唇运动的特性,并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时,结果表明,在受限条件下,使用特征脸和深度特征的组合是最佳的视觉方法。
Nov, 2023
本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别,通过优化模型设计和参数, 加入额外任务,并增加数据扩充,提高模型性能,实现在不同语言下超越以前的所有基于公开数据集的模型表现,并比训练基于非公开数据集的模型表现更好。
Feb, 2022
通过引入多语种音视频语音识别模型和快速调整器模型,提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练,达到了领先水平,并在 MuAViC 基准测试中显著减少了平均识别错误率。
Mar, 2024
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC,我们建立的模型在实验中的表现均超过了以前的相关工作。
Sep, 2018
提出一种多模态自动语音识别模型(ViLaS),能够同时或分别集成视觉和语言线索来帮助识别输入语音,提出一种训练策略,从而提高在模态不完整的测试场景中的性能,并创建一个包含视觉和语言线索的多模态 ASR 数据集(VSDial),探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告,调查跨模态融合方案,并对 VSDial 上的细粒度跨模态对齐进行分析。
May, 2023
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。
Apr, 2018
本研究调查了 1990 年至 2023 年间 Speaker-independent VSR 系统的演变,重点分析了数据集及预处理技术的应用,强调了发展端对端管道的必要性,同时指出了当前研究的局限性和未来方向。
Jun, 2023
本文介绍了 NPU-ASLP-LiAuto(第 237 队)在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别(VSR)系统,涉及单说话人 VSR 任务的固定和开放跟踪,以及多说话人 VSR 任务的开放跟踪。实验结果表明,在多系统融合后,我们的系统在单说话人任务上实现了 34.76% 的 CER,在多说话人任务上实现了 41.06% 的 CER,在我们参与的所有三个跟踪中排名第一。
Jan, 2024