Apr, 2024
BRAVEn: 提升自我监督的视觉和听觉语音识别预训练
BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition
Alexandros Haliassos, Andreas Zinonos, Rodrigo Mira, Stavros Petridis, Maja Pantic
TL;DR我们提出了 BRAVEn,这是对最近的 RAVEn 方法的扩展,完全从原始的音频 - 视觉数据中学习语音表示。我们的修改使得 BRAVEn 在各种环境中成为自我监督方法中的领先者,并且我们通过增加大量未标记数据观察到有利的扩展行为。我们的结果表明,现成的未标记音频 - 视觉数据可以在很大程度上代替昂贵的转录数据。