Mar, 2024

JEP-KD:基于联合嵌入预测架构的知识蒸馏用于视觉语音识别

TL;DR此研究介绍了一种先进的知识蒸馏方法,使用联合嵌入预测架构(JEPA),命名为 JEP-KD,旨在更有效地利用音频特征进行模型训练,以缓解视觉语音识别(VSR)任务的挑战,并展示了其在不同 VSR 平台上显著改善模型性能的潜力。