轻量级音视话语增强

May, 2020

Lite Audio-Visual Speech Enhancement

Shang-Yi Chuang, Yu Tsao, Chen-Chou Lo, Hsin-Min Wang

TL;DR本研究提出了一种 “轻量级视听语音增强” 系统（LAVSE），该系统通过采用两种视觉数据压缩技术和去除训练模型中的人脸或唇部图像的特征提取网络，以达到更好的在线计算效率和更好的性能，从而在保障隐私的前提下，实现了比仅使用音频的增强系统更出色的性能表现。

Abstract

Previous studies have confirmed the effectiveness of incorporating visual information into speech enhancement (SE) systems. Despite improved denoising performance, two problems may be encountered when implementing an audio-visual SE (AVSE) system: (1) additional processing costs are incurred to incorporate visual input and (2) the use of face or lip images m

audio-visual speech enhancement visual data compression privacy online computation efficiency model parameters

发现论文，激发创造

协同双重注意力的音视频语音增强与面部线索

通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。

Nov, 2023

深度学习音 - 视觉语音增强的训练目标和目标函数

研究采用深度学习技术解决音视频语音增强任务时，目标量和目标函数的选择对性能至关重要；本实验研究了一系列不同的目标量和目标函数，结果表明直接估计掩模的方法在估计语音质量和可懂度方面表现最佳。

Nov, 2018

视觉语音增强

本研究使用基于视听神经网络的视觉语音增强方法，在包含有目标演讲者语音的视频背景噪音情况下，通过口型运动提高演讲者语音的清晰度，在嘈杂的环境中实现了语音增强和噪音降低效果，相较于先前的视听方法在两个公共的口形读音数据集上表现更好，同时也是第一个在面向非口形读音的数据集（如巴拉克・奥巴马每周的演讲）上进行的示例研究。

Nov, 2017

多模态深度卷积神经网络实现音视频语音增强

提出了一种音视频深度卷积神经网络（AVDCNN）语音增强模型，该模型在音频处理方面结合了视觉信息，并采用多任务学习框架进行重建音频和视觉信号。实验表明，该模型在语音增强方面表现显著优异，证明了整合视觉信息的有效性，并且优于现有的音频 - 视觉增强模型。

Sep, 2017

音视频语音编解码器：重新思考音视频语音增强通过再合成的方法

本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。

Mar, 2022

VCSE: 时域视觉语境说话人提取网络

本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀

Oct, 2022

基于深度学习的音视频语音增强和分离概述

本文系统综述了基于深度学习的音视频语音增强和分离技术，特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时，还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法，并介绍了常用的音视频数据集和评估方法。

Aug, 2020

通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别

本文提出了两种新技术来改善音视频语音识别，通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位，以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明，使用相对较少的训练数据，该系统比复杂的前端和后端现有系统取得更好的性能。

Aug, 2023

适应说话者的端到端连续西班牙语视觉语音识别

利用西班牙 LIP-RTVE 数据库，本文研究了如何通过专门训练的端到端系统来改善语音识别质量，结果表明，通过演讲者适应，可以显著提高 VSR 系统的性能，并且即使只有有限的数据时，也可以达到与当前最先进技术相媲美的结果。

Nov, 2023

嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性

本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法在各种噪声和清晰条件下都达到了最先进水平，此外在视觉语音识别任务上也优于之前的最优水平。

Jun, 2023