使用多头视听记忆来区分同音异义词进行唇读

AAAIApr, 2022

使用多头视听记忆来区分同音异义词进行唇读

Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading

Minsu Kim, Jeong Hun Yeo, Yong Man Ro

TL;DR本文提出一种多头视听记忆模型 (MVM)，用于减轻唇读中信息不足和同音异义现象的挑战。该模型由音频 - 视觉数据集训练得到，结合多头记忆键和值来保存可区分同音异义现象的音频和视觉特征，并且在考虑上下文语境的多时间级别下使用，有效提高了唇读的识别率和准确性。

Abstract

Recognizing speech from silent lip movement, which is called lip reading, is a challenging task due to 1) the inherent information insufficiency of lip movement to fully represent the speech, and 2) the existence of hom

lip reading audio-visual memory homophenes multi-head key memories one-to-many mapping

发现论文，激发创造

视觉语音识别中的多时序唇音记忆

本文提出了一种利用多时间点音频记忆的视觉语音识别方法，将音频信号与唇部运动相结合，实践证明此方法在两个公共视觉语音识别数据集上取得了最新技术表现。

May, 2023

借助视界构建更好的视觉语言表达和唇读能力

我们提出了一个新的方法，利用音素相似的嘴唇形状群体（发音单位）来提取更具辨别能力和鲁棒性的视频特征，从而改善了视频特征有限所导致的现有嘴唇识别系统低准确度的问题。实验证明，我们的方法在字级和句级嘴唇识别，以及使用 Arman-AV 数据集进行音频视觉语音识别等各项任务中，始终优于最先进的方法。相对最佳先前方法，该方法将嘴唇识别的单词错误率（WER）降低了 9.1%。

Jul, 2023

视觉语音与语言的交汇点：高效和上下文感知的视觉语音处理框架 (VSP-LLM)

该论文提出了一种新的框架 ——Visual Speech Processing incorporated with LLMs (VSP-LLM)，通过引入 LLMs 的强大能力，最大化了上下文建模能力。在 MuAViC 基准测试数据集中，经验证明，相比于使用 433 小时标记数据训练的最近的翻译模型，VSP-LLM 可以更有效地识别和翻译唇部运动，仅需 15 小时标记数据。

Feb, 2024

多粒度时空建模用于唇读

本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Aug, 2019

解码视口型：改进机器唇读技术

该研究提出了一种新的说话者依赖性的音素 - 面部表情地图方法，以及从面部表情解码到音素和单词的新方法，展示了在训练音素分类器的最佳范围面部表情中的层次化训练可以显著提高分类准确性。

Oct, 2017

嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性

本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法在各种噪声和清晰条件下都达到了最先进水平，此外在视觉语音识别任务上也优于之前的最优水平。

Jun, 2023

SyncTalkFace：通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成

该论文提出了一个名为 Audio-Lip Memory 的技术，使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形，从而使得面部运动与音频之间出现了更加精细的时序一致性，实现了更高质量的谈话面部生成。

Nov, 2022

嘴唇闭合：透过障碍物进行视听言语增强

本文提出了一种深度音频 - 视觉语音增强网络，该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音，在嘴部区域引入人工遮挡并通过混合音频来训练模型，实现说话者独立，且在视觉感知受阻的情况下表现优异的应用。

Jul, 2019

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Nov, 2022

记忆中的多模态联想桥接：从面部视频中回溯语音声音

本文提出了一种新颖的音频 - 视觉多模态桥接框架，它可以利用音频和视觉信息，并通过 associative bridge 从记忆网络中获取目标模态表示，将其应用于唇语阅读和静音视频的语音重建，具有当前最先进性能。

Apr, 2022