理解视觉语音信号

CVPROct, 2017

Understanding the visual speech signal

Helen L Bear

TL;DR本文探讨视觉语音信道对于机器口形识别、提高口形识别及其他领域，如语音治疗、动画制作、心理学的应用，特别研究讲话人个体差异的影响并演示了如何利用口形来提高口形识别的能力。

Abstract

For machines to lipread, or understand speech from lip movement, they decode lip-motions (known as visemes) into the spoken sounds. We investigate the visual speech channel to further our understanding of visemes

lipreading speech understanding visemes speaker individuality speech therapy

发现论文，激发创造

解码视口型：改进机器唇读技术

该研究提出了一种新的说话者依赖性的音素 - 面部表情地图方法，以及从面部表情解码到音素和单词的新方法，展示了在训练音素分类器的最佳范围面部表情中的层次化训练可以显著提高分类准确性。

Oct, 2017

借助视界构建更好的视觉语言表达和唇读能力

我们提出了一个新的方法，利用音素相似的嘴唇形状群体（发音单位）来提取更具辨别能力和鲁棒性的视频特征，从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明，我们的方法在字级和句级嘴唇识别，以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中，始终优于最先进的方法。相对最佳先前方法，该方法将嘴唇识别的单词错误率（WER）降低了 9.1%。

Jul, 2023

哪些音素到视音素映射能最好地提高仅靠视觉进行的计算机唇读准确率？

本文研究探讨当前视觉语音识别系统的一个重要假设，即存在可称为音素单元的视觉语音单元，这些单元可以映射到声学语音单元；通过研究 120 种不同的映射方法，本文提出一种基于自动唇读系统的音素混淆方法，展示了适用于个体患者的新映射方法。

Oct, 2017

西班牙语连续唇读的视觉特征分析

我们提出了一种分析不同语音视觉特征的方法，以确定哪种方法最适合捕捉西班牙语口唇运动的特性，并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时，结果表明，在受限条件下，使用特征脸和深度特征的组合是最佳的视觉方法。

Nov, 2023

无需实际视觉流的视觉语音增强

本文提出了一个基于说话者的唇部动作的噪音滤波器模型，该模型利用了最新的语音驱动唇部合成技术，能够在缺少视觉流的情况下优化语音质量和可懂性，并通过定量和人工评估证明了其有效性。

Dec, 2020

视觉语音增强

本研究使用基于视听神经网络的视觉语音增强方法，在包含有目标演讲者语音的视频背景噪音情况下，通过口型运动提高演讲者语音的清晰度，在嘈杂的环境中实现了语音增强和噪音降低效果，相较于先前的视听方法在两个公共的口形读音数据集上表现更好，同时也是第一个在面向非口形读音的数据集（如巴拉克・奥巴马每周的演讲）上进行的示例研究。

Nov, 2017

利用唇语专家的视听指导增强语音驱动的三维面部动画

本文介绍了一种基于语音驱动的三维面部动画生成准确嘴唇运动的方法，通过提出的视听多模态感知损失来指导训练面部动画生成器生成与口述文本相对齐的可信嘴唇动作。此外，我们还设计了一种利用先验知识关联语音和嘴唇运动的视听唇读专家，以整合提出的视听感知损失，并通过广泛的实验证实了我们的方法的有效性，显示了嘴唇同步和可读性性能的明显改善。

Jul, 2024

基于语言识别的唇部生物特征视觉系统改进

该研究是一项关于利用语言信息作为软生物特征，增强基于唇部运动的视觉辅助识别系统性能的初步研究，特别是通过积分打分策略来达到显著的提高。实验使用了包括 8 种不同语言的 laBial Articulation for the proBlem of the spokEn Language rEcognition (BABELE) 数据集，评估了深度学习和机器学习方法。

Feb, 2023

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

嘴唇闭合：透过障碍物进行视听言语增强

本文提出了一种深度音频 - 视觉语音增强网络，该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音，在嘴部区域引入人工遮挡并通过混合音频来训练模型，实现说话者独立，且在视觉感知受阻的情况下表现优异的应用。

Jul, 2019