本文研究探讨当前视觉语音识别系统的一个重要假设,即存在可称为音素单元的视觉语音单元,这些单元可以映射到声学语音单元;通过研究 120 种不同的映射方法,本文提出一种基于自动唇读系统的音素混淆方法,展示了适用于个体患者的新映射方法。
Oct, 2017
该研究提出了一种新的说话者依赖性的音素 - 面部表情地图方法,以及从面部表情解码到音素和单词的新方法,展示了在训练音素分类器的最佳范围面部表情中的层次化训练可以显著提高分类准确性。
我们提出了一个新的方法,利用音素相似的嘴唇形状群体(发音单位)来提取更具辨别能力和鲁棒性的视频特征,从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明,我们的方法在字级和句级嘴唇识别,以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中,始终优于最先进的方法。相对最佳先前方法,该方法将嘴唇识别的单词错误率(WER)降低了 9.1%。
Jul, 2023
本文探讨视觉语音信道对于机器口形识别、提高口形识别及其他领域,如语音治疗、动画制作、心理学的应用,特别研究讲话人个体差异的影响并演示了如何利用口形来提高口形识别的能力。
本文提出一种多头视听记忆模型 (MVM),用于减轻唇读中信息不足和同音异义现象的挑战。该模型由音频 - 视觉数据集训练得到,结合多头记忆键和值来保存可区分同音异义现象的音频和视觉特征,并且在考虑上下文语境的多时间级别下使用,有效提高了唇读的识别率和准确性。
Apr, 2022
本研究揭示了音位和面部特征之间的神秘联系,通过提出细粒度的语音 - 面部关系分析流程,证实了元音比辅音更容易通过行气和面部运动来预测面部人体测量学属性,并为未来研究语音 - 面部多模式学习奠定了基础。
本文提出了一种基于视觉模态的无监督噪声适应方案,使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明,我们的方法在各种噪声和清晰条件下都达到了最先进水平,此外在视觉语音识别任务上也优于之前的最优水平。
Jun, 2023
本文检验了 Speech2Vec 模型的效果,发现其未能学习到有效的语义嵌入,并怀疑原文中提到的语音词向量是由一个基于文本的模型生成的。
Sep, 2022
本文介绍了一种两阶段框架,用于考虑口语单词的上下文执行音素语义嵌入,第一阶段执行音素嵌入,第二阶段执行语义嵌入,我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。
Jul, 2018
该论文提出了一种使用模糊推理系统将词语分解为字素的方法,其中字素是语音的自包含表示形式。该系统可正确预测词语中字素的数量,50.18% 的时间内准确率高于正确分类的容差范围内的 93.51%,但这种准确率会受区域口音和方言的影响。该论文还提供了另一种基准方法,通过递归的语音国际音标映射和发音字典的使用进行比较。
Apr, 2024