Jan, 2023

一种多用途的音频 - 视觉语料库,用于多模式波斯语语音识别:Arman-AV 数据集

TL;DR本文提出一个新的适用于波斯语的多用途视听数据集,包括近 220 小时的视频,可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时,本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素(一个音素的可视对应物)的技术,在相对于先前提出的视音素方案的基础上可以将口型阅读精度提高 7%。