Mar, 2024
XLAVS-R:跨语言音视频言语表征学习用于噪音鲁棒言语感知
XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception
HyoJung Han, Mohamed Anwar, Juan Pino, Wei-Ning Hsu, Marine Carpuat...
TL;DR基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。