Jul, 2023

ivrit.ai: 一个用于 AI 研究和开发的全面希伯来语数据集

TL;DR我们介绍了 “ivrit.ai”,它是一种全面的希伯来语语音数据集,解决了希伯来语自动语音识别(ASR)技术推进所面临的严重资源缺乏问题。该数据集包括超过 3300 小时的语音和 1000 多个不同的说话者,涵盖了各种语境下的希伯来语音。它以三种形式提供,以满足不同的研究需求:原始未处理音频;经过语音活动检测后的数据;以及部分转录的数据。这个数据集的独特之处在于其合法可获取性,可以无费使用,因此成为研究人员、开发者和商业实体的重要资源。ivrit.ai 打开了众多应用的可能性,为提升希伯来语的人工智能能力提供了广阔的潜力。未来的努力旨在进一步扩展 ivrit.ai,从而推进希伯来语在人工智能研究和技术方面的地位。