自动说话人无关的视觉语音识别:全面调查
本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别,通过优化模型设计和参数, 加入额外任务,并增加数据扩充,提高模型性能,实现在不同语言下超越以前的所有基于公开数据集的模型表现,并比训练基于非公开数据集的模型表现更好。
Feb, 2022
提出了一种基于音频知识的视觉语音识别框架(AKVSR),通过使用音频模态来补充视觉模态中不足的语音信息,利用预训练的大规模音频模型编码丰富的音频知识,并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中,并包括能够从紧凑的音频存储器中找到最佳匹配音频特征的音频桥接模块,使得训练过程不需要音频输入,通过广泛的实验验证了该方法的有效性,并在广泛使用的数据集 LRS2 和 LRS3 上取得了最新的最佳表现。
Aug, 2023
该论文提出了一种新颖的资源高效方法,利用任何训练过的自动语音识别(ASR)模型生成的语音表示来进行视觉语音识别(VSR)。通过远离最近文献中流行的资源密集型趋势,我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识,在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据,我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率(WER)。在有限标记数据的微调之后,词错误率降至 35%(LRS2)和 45.7%(LRS3)。我们的模型可以在几天内在单个消费级 GPU 上进行训练,并能够在老旧硬件上实时进行端到端的 VSR,为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。
Dec, 2023
本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架,利用 LRS3 数据集的少量标记数据,在噪音干扰的情况下提高了超过 50% 的性能,并且比基于音频的模型将词错误率减少了 75% 以上。
Jan, 2022
Visual Speech Recognition (VSR) aims to interpret spoken content from visual cues, and SyncVSR presents an end-to-end learning framework that synchronizes visual representation with acoustic data, achieving state-of-the-art results while reducing data usage by up to ninefold.
Jun, 2024
本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR,利用大规模合成数据进行半监督学习,在公开数据集上实现了最新的性能。
Mar, 2023
该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别(VSR)方法,通过使用 Whisper 模型,它可以进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能,并提供了大规模无标注多语言数据库的自动标签。
Sep, 2023
利用西班牙 LIP-RTVE 数据库,本文研究了如何通过专门训练的端到端系统来改善语音识别质量,结果表明,通过演讲者适应,可以显著提高 VSR 系统的性能,并且即使只有有限的数据时,也可以达到与当前最先进技术相媲美的结果。
Nov, 2023
本文介绍了 NPU-ASLP-LiAuto(第 237 队)在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别(VSR)系统,涉及单说话人 VSR 任务的固定和开放跟踪,以及多说话人 VSR 任务的开放跟踪。实验结果表明,在多系统融合后,我们的系统在单说话人任务上实现了 34.76% 的 CER,在多说话人任务上实现了 41.06% 的 CER,在我们参与的所有三个跟踪中排名第一。
Jan, 2024
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021