Jul, 2024

HebDB:用于希伯来语语音处理的弱监督数据集

TL;DR我们介绍了 HebDB,这是一个用于希伯来语口语处理的弱监督数据集。HebDB 提供约 2500 小时的希伯来语自然和自发语音记录,包含多种说话者和主题。我们提供原始记录以及经过预处理、弱监督和筛选后的版本。HebDB 的目标是进一步增强希伯来语口语处理工具的研究和开发。因此,我们还提供了两种基准系统用于自动语音识别(ASR):(i)自监督模型;以及(ii)完全监督模型。我们介绍了这两种方法在 HebDB 上的性能,并将其与当前多语言 ASR 替代方法进行了比较。结果表明,提出的方法在相似的模型大小下比评估的基准方法取得了更好的结果。数据集、代码和模型在此 https 网址上公开可用。