Jan, 2024

SlideAVSR:用于视听语音识别的论文解释视频数据集

TL;DR通过构建 SlideAVSR 数据集,这篇论文提出了一种用于科学论文解释视频的 AVSR 数据集,旨在为模型提供在演示录音中将语音话语转录为滑动演示文本的基准评估。同时,论文还介绍了一种名为 DocWhisper 的简单但有效的 AVSR 模型,它可以参考来自幻灯片的文本信息,并在 SlideAVSR 数据集上验证其有效性。