基于字级别的波斯语唇语数据集
本文提出一个新的适用于波斯语的多用途视听数据集,包括近 220 小时的视频,可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时,本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素(一个音素的可视对应物)的技术,在相对于先前提出的视音素方案的基础上可以将口型阅读精度提高 7%。
Jan, 2023
本文提出了 GLips 数据集,其中包含 25 万个公共可用的视频,用于面部讲话者的单词级别的唇语阅读,作者探究了唇语阅读是否具有语言无关的特征,以便可以利用数据集来提高唇语阅读模型。
Feb, 2022
本文介绍了一个自然分布的大型口型识别基准数据库 LRW-1000,该数据库包含来自 2000 多个个体说话者的 718,098 个样本,其中每个类都对应一个普通话单词的音节,同时评估了一些利用该数据集的典型口型识别方法和结果分析。
Oct, 2018
本文提出一个可扩展的开放词汇视觉语音识别方案,通过构建目前最大的视频对话集和一个设计的集成唇读系统,其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线,一个可扩展的深度神经网络,以将唇部视频映射到音素分布序列,并输出单词序列的生产级语音解码器,该系统以 40.9%的单词错误率成功应用在数据集上,与其他唇读方法相比更具有效性。
Jul, 2018
本研究目的在于通过观察说话者的口型运动,并结合音频或不结合音频,识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”(WLAS)网络来学习将口腔运动视频转录为字符的方法,设计了一种课程学习策略来加速训练并减少过拟合,建立了一个视觉语音识别数据集 - “Lip Reading Sentences”(LRS)数据集,其中包含来自英国电视的超过 100,000 个自然语句,该方法优于以往所有标准嘴唇读取基准数据集的表现。
Nov, 2016
我们提出了一个新的方法,利用音素相似的嘴唇形状群体(发音单位)来提取更具辨别能力和鲁棒性的视频特征,从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明,我们的方法在字级和句级嘴唇识别,以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中,始终优于最先进的方法。相对最佳先前方法,该方法将嘴唇识别的单词错误率(WER)降低了 9.1%。
Jul, 2023
本文介绍了单人发音数据集 ArmanTTS,通过对比各种普遍数据集的特征,证明了 ArmanTTS 是教授波斯文本到语音转换模型所必需的标准。我们结合 Tacotron 2 和 HiFi GAN 设计了一个模型,可以接收音素作为输入,输出是相应的语音合成,并获得了 MOS 评分分别为实际语音的值为 4.0、音频编解码器预测的值为 3.87 和 TTS 模型生成的合成语音的值为 2.98。
Apr, 2023
利用视觉数据识别口型以识别口述单词的技术(lipreading)是研究的热门话题之一,本研究提出了一种基于交叉注意力融合的方法,通过整合嘴部区域的视觉和几何特征来预测阿拉伯语单词的出现,实验证明了该方法在识别阿拉伯语单词方面的有效性和鲁棒性,为将 lipreading 技术应用于阿拉伯语打开了新的研究机会。
Feb, 2024
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024