May, 2024

ViSpeR: 多语言音视频语音识别

TL;DR该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上,对音视频语音识别(AVSR)进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练,在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区,旨在为音视频语音识别领域的进一步研究和探索奠定基础。