理解视觉语音信号
该研究提出了一种新的说话者依赖性的音素 - 面部表情地图方法,以及从面部表情解码到音素和单词的新方法,展示了在训练音素分类器的最佳范围面部表情中的层次化训练可以显著提高分类准确性。
Oct, 2017
我们提出了一个新的方法,利用音素相似的嘴唇形状群体(发音单位)来提取更具辨别能力和鲁棒性的视频特征,从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明,我们的方法在字级和句级嘴唇识别,以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中,始终优于最先进的方法。相对最佳先前方法,该方法将嘴唇识别的单词错误率(WER)降低了 9.1%。
Jul, 2023
本文研究探讨当前视觉语音识别系统的一个重要假设,即存在可称为音素单元的视觉语音单元,这些单元可以映射到声学语音单元;通过研究 120 种不同的映射方法,本文提出一种基于自动唇读系统的音素混淆方法,展示了适用于个体患者的新映射方法。
Oct, 2017
我们提出了一种分析不同语音视觉特征的方法,以确定哪种方法最适合捕捉西班牙语口唇运动的特性,并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时,结果表明,在受限条件下,使用特征脸和深度特征的组合是最佳的视觉方法。
Nov, 2023
本文提出了一个基于说话者的唇部动作的噪音滤波器模型,该模型利用了最新的语音驱动唇部合成技术,能够在缺少视觉流的情况下优化语音质量和可懂性,并通过定量和人工评估证明了其有效性。
Dec, 2020
本研究使用基于视听神经网络的视觉语音增强方法,在包含有目标演讲者语音的视频背景噪音情况下,通过口型运动提高演讲者语音的清晰度,在嘈杂的环境中实现了语音增强和噪音降低效果,相较于先前的视听方法在两个公共的口形读音数据集上表现更好,同时也是第一个在面向非口形读音的数据集(如巴拉克・奥巴马每周的演讲)上进行的示例研究。
Nov, 2017
本文介绍了一种基于语音驱动的三维面部动画生成准确嘴唇运动的方法,通过提出的视听多模态感知损失来指导训练面部动画生成器生成与口述文本相对齐的可信嘴唇动作。此外,我们还设计了一种利用先验知识关联语音和嘴唇运动的视听唇读专家,以整合提出的视听感知损失,并通过广泛的实验证实了我们的方法的有效性,显示了嘴唇同步和可读性性能的明显改善。
Jul, 2024
该研究是一项关于利用语言信息作为软生物特征,增强基于唇部运动的视觉辅助识别系统性能的初步研究,特别是通过积分打分策略来达到显著的提高。实验使用了包括 8 种不同语言的 laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE) 数据集,评估了深度学习和机器学习方法。
Feb, 2023
本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法,并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法,并获得其他方面的收益。
Mar, 2023
本文提出了一种深度音频 - 视觉语音增强网络,该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音,在嘴部区域引入人工遮挡并通过混合音频来训练模型,实现说话者独立,且在视觉感知受阻的情况下表现优异的应用。
Jul, 2019