May, 2022

国家图书馆内的言语语料库与瑞典语言音模型

TL;DR本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库,对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终,作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能,并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。