音素到面音素的映射：好的、坏的和丑陋的

May, 2018

音素到面音素的映射：好的、坏的和丑陋的

Phoneme-to-viseme mappings: the good, the bad, and the ugly

Helen L Bear, Richard Harvey

TL;DR本文探讨了应用可视嘴唇分类器时由于多对一的映射所产生的音素之间的歧义，证明了不同的音素到可视嘴唇映射之间的性能差异，提出了一种新的算法用于构建标记语音数据的音素到可视嘴唇映射，并且表明这种新的可视嘴唇 'Bear' 映射的性能优于以前的单位。

Abstract

visemes are the visual equivalent of phonemes. Although not precisely defined, a working definition of a viseme is "a set of phonemes whic

visemes phonemes mapping audio-visual classifiers speech data

发现论文，激发创造

哪些音素到视音素映射能最好地提高仅靠视觉进行的计算机唇读准确率？

本文研究探讨当前视觉语音识别系统的一个重要假设，即存在可称为音素单元的视觉语音单元，这些单元可以映射到声学语音单元；通过研究 120 种不同的映射方法，本文提出一种基于自动唇读系统的音素混淆方法，展示了适用于个体患者的新映射方法。

Oct, 2017

解码视口型：改进机器唇读技术

该研究提出了一种新的说话者依赖性的音素 - 面部表情地图方法，以及从面部表情解码到音素和单词的新方法，展示了在训练音素分类器的最佳范围面部表情中的层次化训练可以显著提高分类准确性。

Oct, 2017

借助视界构建更好的视觉语言表达和唇读能力

我们提出了一个新的方法，利用音素相似的嘴唇形状群体（发音单位）来提取更具辨别能力和鲁棒性的视频特征，从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明，我们的方法在字级和句级嘴唇识别，以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中，始终优于最先进的方法。相对最佳先前方法，该方法将嘴唇识别的单词错误率（WER）降低了 9.1%。

Jul, 2023

理解视觉语音信号

本文探讨视觉语音信道对于机器口形识别、提高口形识别及其他领域，如语音治疗、动画制作、心理学的应用，特别研究讲话人个体差异的影响并演示了如何利用口形来提高口形识别的能力。

Oct, 2017

使用多头视听记忆来区分同音异义词进行唇读

本文提出一种多头视听记忆模型 (MVM)，用于减轻唇读中信息不足和同音异义现象的挑战。该模型由音频 - 视觉数据集训练得到，结合多头记忆键和值来保存可区分同音异义现象的音频和视觉特征，并且在考虑上下文语境的多时间级别下使用，有效提高了唇读的识别率和准确性。

Apr, 2022

音素和面貌的隐秘舞蹈：揭示音素与面部特征之间的神秘关联

本研究揭示了音位和面部特征之间的神秘联系，通过提出细粒度的语音 - 面部关系分析流程，证实了元音比辅音更容易通过行气和面部运动来预测面部人体测量学属性，并为未来研究语音 - 面部多模式学习奠定了基础。

Jul, 2023

嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性

本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法在各种噪声和清晰条件下都达到了最先进水平，此外在视觉语音识别任务上也优于之前的最优水平。

Jun, 2023

同音字揭示真相：针对 Speech2Vec 的现实检验

本文检验了 Speech2Vec 模型的效果，发现其未能学习到有效的语义嵌入，并怀疑原文中提到的语音词向量是由一个基于文本的模型生成的。

Sep, 2022

口语词汇的音义嵌入及其在口语内容检索中的应用

本文介绍了一种两阶段框架，用于考虑口语单词的上下文执行音素语义嵌入，第一阶段执行音素嵌入，第二阶段执行语义嵌入，我们进一步提出了通过文本嵌入并行评估在第二阶段获得的音频嵌入的音素和语义性质。

Jul, 2018

通过模糊推理系统对英语单词中的字素进行分类

该论文提出了一种使用模糊推理系统将词语分解为字素的方法，其中字素是语音的自包含表示形式。该系统可正确预测词语中字素的数量，50.18% 的时间内准确率高于正确分类的容差范围内的 93.51%，但这种准确率会受区域口音和方言的影响。该论文还提供了另一种基准方法，通过递归的语音国际音标映射和发音字典的使用进行比较。

Apr, 2024