Mar, 2024

XLAVS-R:跨语言音视频言语表征学习用于噪音鲁棒言语感知

TL;DR基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。