Apr, 2024

BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

TL;DR我们提出了 BRAVEn,这是对最近的 RAVEn 方法的扩展,完全从原始的音频 - 视觉数据中学习语音表示。我们的修改使得 BRAVEn 在各种环境中成为自我监督方法中的领先者,并且我们通过增加大量未标记数据观察到有利的扩展行为。我们的结果表明,现成的未标记音频 - 视觉数据可以在很大程度上代替昂贵的转录数据。