Jul, 2024
HebDB:用于希伯来语语音处理的弱监督数据集
HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing
TL;DR我们介绍了 HebDB,这是一个用于希伯来语口语处理的弱监督数据集。HebDB提供约2500小时的希伯来语自然和自发语音记录,包含多种说话者和主题。我们提供原始记录以及经过预处理、弱监督和筛选后的版本。HebDB的目标是进一步增强希伯来语口语处理工具的研究和开发。因此,我们还提供了两种基准系统用于自动语音识别(ASR):(i)自监督模型;以及(ii)完全监督模型。我们介绍了这两种方法在HebDB上的性能,并将其与当前多语言ASR替代方法进行了比较。结果表明,提出的方法在相似的模型大小下比评估的基准方法取得了更好的结果。数据集、代码和模型在此https网址上公开可用。