Feb, 2024

视觉语音与语言的交汇点:高效和上下文感知的视觉语音处理框架(VSP-LLM)

TL;DR该论文提出了一种新的框架——Visual Speech Processing incorporated with LLMs (VSP-LLM),通过引入LLMs的强大能力,最大化了上下文建模能力。在MuAViC基准测试数据集中,经验证明,相比于使用433小时标记数据训练的最近的翻译模型,VSP-LLM可以更有效地识别和翻译唇部运动,仅需15小时标记数据。