Apr, 2023

基于字级别的波斯语唇语数据集

TL;DR提供了一个新的有着 24.4 万视频和约 1800 名演讲者的真实情境下的波斯语单词级别的唇语数据集,并使用 AV-HuBERT 模型进行特征提取,该方法在我们的数据集上获得了显著更好的性能。