Aug, 2023

AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别

TL;DR提出了一种基于音频知识的视觉语音识别框架(AKVSR),通过使用音频模态来补充视觉模态中不足的语音信息,利用预训练的大规模音频模型编码丰富的音频知识,并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中,并包括能够从紧凑的音频存储器中找到最佳匹配音频特征的音频桥接模块,使得训练过程不需要音频输入,通过广泛的实验验证了该方法的有效性,并在广泛使用的数据集 LRS2 和 LRS3 上取得了最新的最佳表现。