visemes | BriefGPT - AI 论文速递

关键词visemes

搜索结果 - 5

借助视界构建更好的视觉语言表达和唇读能力
我们提出了一个新的方法，利用音素相似的嘴唇形状群体（发音单位）来提取更具辨别能力和鲁棒性的视频特征，从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明，我们的方法在字级和句级嘴唇识别，以及使用 Arman-AV 数据集进
PDFa year ago
基于度量学习改善正常与无声语音间的视觉语音识别差距
本文提出一种基于 visemes 的度量学习方法，解决了视觉语音识别中正常与无声语音的表现差距问题，通过最小化预测 viseme 概率分布之间和内部的 Kullback-Leibler 散度，有效地学习和预测 viseme 身份。
PDFa year ago
音素到面音素的映射：好的、坏的和丑陋的
本文探讨了应用可视嘴唇分类器时由于多对一的映射所产生的音素之间的歧义，证明了不同的音素到可视嘴唇映射之间的性能差异，提出了一种新的算法用于构建标记语音数据的音素到可视嘴唇映射，并且表明这种新的可视嘴唇 'Bear' 映射的性能优于以前的单位
PDF6 years ago
CVPR理解视觉语音信号
本文探讨视觉语音信道对于机器口形识别、提高口形识别及其他领域，如语音治疗、动画制作、心理学的应用，特别研究讲话人个体差异的影响并演示了如何利用口形来提高口形识别的能力。
PDF7 years ago
哪些音素到视音素映射能最好地提高仅靠视觉进行的计算机唇读准确率？
本文研究探讨当前视觉语音识别系统的一个重要假设，即存在可称为音素单元的视觉语音单元，这些单元可以映射到声学语音单元；通过研究 120 种不同的映射方法，本文提出一种基于自动唇读系统的音素混淆方法，展示了适用于个体患者的新映射方法。
PDF7 years ago