借助视界构建更好的视觉语言表达和唇读能力

Jul, 2023

借助视界构建更好的视觉语言表达和唇读能力

Leveraging Visemes for Better Visual Speech Representation and Lip Reading

Javad Peymanfard, Vahid Saeedi, Mohammad Reza Mohammadi, Hossein Zeinali, Nasser Mozayani

TL;DR我们提出了一个新的方法，利用音素相似的嘴唇形状群体（发音单位）来提取更具辨别能力和鲁棒性的视频特征，从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明，我们的方法在字级和句级嘴唇识别，以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中，始终优于最先进的方法。相对最佳先前方法，该方法将嘴唇识别的单词错误率（WER）降低了 9.1%。

Abstract

lip reading is a challenging task that has many potential applications in speech recognition, human-computer interaction, and security systems. However, existing →

lip reading visemes video features speech recognition arman-av dataset

发现论文，激发创造

解码视口型：改进机器唇读技术

该研究提出了一种新的说话者依赖性的音素 - 面部表情地图方法，以及从面部表情解码到音素和单词的新方法，展示了在训练音素分类器的最佳范围面部表情中的层次化训练可以显著提高分类准确性。

Oct, 2017

大规模视觉语音识别

本文提出一个可扩展的开放词汇视觉语音识别方案，通过构建目前最大的视频对话集和一个设计的集成唇读系统，其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线，一个可扩展的深度神经网络，以将唇部视频映射到音素分布序列，并输出单词序列的生产级语音解码器，该系统以 40.9％的单词错误率成功应用在数据集上，与其他唇读方法相比更具有效性。

Jul, 2018

理解视觉语音信号

本文探讨视觉语音信道对于机器口形识别、提高口形识别及其他领域，如语音治疗、动画制作、心理学的应用，特别研究讲话人个体差异的影响并演示了如何利用口形来提高口形识别的能力。

Oct, 2017

西班牙语连续唇读的视觉特征分析

我们提出了一种分析不同语音视觉特征的方法，以确定哪种方法最适合捕捉西班牙语口唇运动的特性，并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时，结果表明，在受限条件下，使用特征脸和深度特征的组合是最佳的视觉方法。

Nov, 2023

哪些音素到视音素映射能最好地提高仅靠视觉进行的计算机唇读准确率？

本文研究探讨当前视觉语音识别系统的一个重要假设，即存在可称为音素单元的视觉语音单元，这些单元可以映射到声学语音单元；通过研究 120 种不同的映射方法，本文提出一种基于自动唇读系统的音素混淆方法，展示了适用于个体患者的新映射方法。

Oct, 2017

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

一种多用途的音频 - 视觉语料库，用于多模式波斯语语音识别：Arman-AV 数据集

本文提出一个新的适用于波斯语的多用途视听数据集，包括近 220 小时的视频，可用于自动语音识别、视听语音识别、说话人识别和自动口型阅读。同时，本数据集也是波斯语中第一个大规模口型阅读数据集。还提出了一种检测波斯语中视音素（一个音素的可视对应物）的技术，在相对于先前提出的视音素方案的基础上可以将口型阅读精度提高 7%。

Jan, 2023

基于视觉和几何特征的大词汇量阿拉伯口语识别的交叉注意力融合

利用视觉数据识别口型以识别口述单词的技术（lipreading）是研究的热门话题之一，本研究提出了一种基于交叉注意力融合的方法，通过整合嘴部区域的视觉和几何特征来预测阿拉伯语单词的出现，实验证明了该方法在识别阿拉伯语单词方面的有效性和鲁棒性，为将 lipreading 技术应用于阿拉伯语打开了新的研究机会。

Feb, 2024

通过压缩语音识别器提高口讯识别效果

本文提出一种名为 Lip by Speech (LIBS) 的新方法，通过从语音识别器中学习来提高唇语的性能，采用多粒度知识蒸馏进行跨模态知识蒸馏，并在 CMLR 和 LRS2 数据集上实现新的最先进性能，分别比基线优越 7.66％和 2.75％.

Nov, 2019

多粒度时空建模用于唇读

本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Aug, 2019