- SyncVSR: 数据高效的视觉语音识别与端到端跨模态音频令牌同步
Visual Speech Recognition (VSR) aims to interpret spoken content from visual cues, and SyncVSR presents an end-to-end le - JEP-KD:基于联合嵌入预测架构的知识蒸馏用于视觉语音识别
此研究介绍了一种先进的知识蒸馏方法,使用联合嵌入预测架构(JEPA),命名为 JEP-KD,旨在更有效地利用音频特征进行模型训练,以缓解视觉语音识别(VSR)任务的挑战,并展示了其在不同 VSR 平台上显著改善模型性能的潜力。
- COLING传统混合解码器与 CTC / 注意力解码器在连续视觉语音识别中的比较
通过对少样本数据情况下传统 DNN-HMM 解码器和先进的 CTC/Attention 解码器的研究比较,我们发现传统范式在数据稀缺的情况下具有更好的识别率、较短的训练时间和更少的参数。
- CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述
本文介绍了 NPU-ASLP-LiAuto(第 237 队)在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别(VSR)系统,涉及单说话人 VSR 任务的固定和开放跟踪,以及多说话人 VSR 任务的开放跟踪。实验结果表明,在多系 - LiteVSR:通过学习无标签数据的语音表征实现高效的视觉语音识别
该论文提出了一种新颖的资源高效方法,利用任何训练过的自动语音识别(ASR)模型生成的语音表示来进行视觉语音识别(VSR)。通过远离最近文献中流行的资源密集型趋势,我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识,在标 - VSR 模型是否具有 LRS3 之外的泛化能力?
通过创建名为 WildVSR 的新的视觉语音识别测试集,评估和分析现有的视觉语音识别模型对新测试数据的泛化能力,并发现相比于 LRS3 结果,公开可用的视觉语音识别模型在我们的测试集上表现明显下降,提示模型在无监督、更具挑战性的口型序列上泛 - LIP-RTVE:西班牙连续口语的音视数据库
本文介绍了一个半自动注释的音视频数据库,用于处理自由自然的西班牙语,提供了来自西班牙电视的 13 小时数据。此外,报告了基于隐马尔可夫模型的发言人相关和发言人无关情景的基准结果,这是一种在语音技术领域广泛使用的传统范式。
- 西班牙语连续唇读的视觉特征分析
我们提出了一种分析不同语音视觉特征的方法,以确定哪种方法最适合捕捉西班牙语口唇运动的特性,并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时,结果表明,在受限条件下,使用特征脸和深度特征的 - 适应说话者的端到端连续西班牙语视觉语音识别
利用西班牙 LIP-RTVE 数据库,本文研究了如何通过专门训练的端到端系统来改善语音识别质量,结果表明,通过演讲者适应,可以显著提高 VSR 系统的性能,并且即使只有有限的数据时,也可以达到与当前最先进技术相媲美的结果。
- 罗马尼亚跨语言域自适应的端到端唇读
该研究论文研究了视窗学习(或称视觉语音识别)的关键领域,采用各种架构和优化方法对基于罗马尼亚语言数据集的模型进行测试,并通过使用英语和德语数据集的无标签视频来帮助模型学习语言不变特征,进而提出跨语言领域自适应的方法,最终获得了尖端结果,并评 - AV-CPL: 面向音视频语音识别的连续伪标记
通过连续的伪标签生成解决了音频 - 视觉语音识别的半监督训练问题,同时提高了视觉语音识别性能并保持了实用性。
- 利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别
该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别(VSR)方法,通过使用 Whisper 模型,它可以进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能,并提 - AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别
提出了一种基于音频知识的视觉语音识别框架(AKVSR),通过使用音频模态来补充视觉模态中不足的语音信息,利用预训练的大规模音频模型编码丰富的音频知识,并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中,并包括能够从紧凑的音频存储 - Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别
基于 Lip2Vec 的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到对应的音频潜在表示,以实现有效的文本解码。利用现成的音频语音识别(ASR)模型将生成的音频表示解码为文本,该方法在 LRS3 数据集上实现了 - SparseVSR: 轻巧且抗噪声的视觉语音识别
深度学习神经网络在视觉语音识别方面取得了前所未有的成功,本研究通过不同的基于幅度的修剪技术,生成了一个轻量级模型,其在视觉噪声存在的情况下表现出比其密集模型等效性能更高的水平,在 LRS3 数据集的 10%稀疏度下实现了最先进的结果,并在 - 基于度量学习改善正常与无声语音间的视觉语音识别差距
本文提出一种基于 visemes 的度量学习方法,解决了视觉语音识别中正常与无声语音的表现差距问题,通过最小化预测 viseme 概率分布之间和内部的 Kullback-Leibler 散度,有效地学习和预测 viseme 身份。
- 视觉语音识别中的多时序唇音记忆
本文提出了一种利用多时间点音频记忆的视觉语音识别方法,将音频信号与唇部运动相结合,实践证明此方法在两个公共视觉语音识别数据集上取得了最新技术表现。
- CVPRSynthVSR: 利用合成监督扩大视觉语音识别的规模
本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR,利用大规模合成数据进行半监督学习,在公开数据集上实现了最新的性能。
- 视觉语音识别只需拟态
提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟,更高的内存效率和更好的 WER 性能,从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。
- 面向说话者自适应视觉语音识别的深度神经网络提示调整
本文提出了一种基于 Deep Neural Networks 的 prompt tuning 方法,通过针对目标演讲者的适应数据进行提示微调,显著提高了预先训练的 Visual Speech Recognition 模型在未知演讲者上的性能