AV2Wav：基于扩散的连续自监督特征合成的音频 - 视觉语音增强

Sep, 2023

AV2Wav：基于扩散的连续自监督特征合成的音频 - 视觉语音增强

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

Ju-Chieh Chou, Chung-Ming Chien, Karen Livescu

TL;DR在这项工作中，我们介绍了 AV2Wav，这是一种基于重新综合的视听语音增强方法，可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集，然后在这个子集上训练扩散模型，该模型以 AV-HuBERT 的连续语音表示为条件生成波形，并使用抗噪训练。我们使用连续表示而不是离散表示来保留韵律和说话人信息。仅仅通过这个声码任务，该模型的语音增强性能就优于基于掩模的基线。我们进一步在清晰 / 噪声话语对上对扩散模型进行微调以提高性能。我们的方法在自动度量和人工听力测试中均优于基于掩模的基线，并且在听力测试中的质量接近目标语音。

Abstract

speech enhancement systems are typically trained using pairs of clean and noisy speech. In audio-visual speech enhancement (AVSE), there is not as much ground-truth clean data available; most audio-visual dataset

speech enhancement audio-visual speech av2wav neural quality estimator diffusion model

发现论文，激发创造

音视频语音编解码器：重新思考音视频语音增强通过再合成的方法

本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。

Mar, 2022

基于评分的生成模型的音视频语音增强

本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Jun, 2023

透视对话：基于扩散模型的音频 - 视觉语音分离

本文介绍了 AVDiffuSS，一种基于扩散机制的音视频语音分离模型，通过视觉线索从声音混合中提取目标发言者的声音，该模型在保持自然性方面具有挑战，并提出了一种基于交叉注意力的特征融合机制，以实现两种模态的有效融合，并在语音生成中集成语音视觉对应的语音信息，通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音具有显著更好的自然音质。

Oct, 2023

AV2AV: 直接音频 - 视觉语音到音频 - 视觉语音翻译与统一音频 - 视觉语音表示

该论文提出了一种新颖的直接音频 - 视觉转换技术，将输入和输出的系统处理音频和视觉语音，从而实现具有同步嘴部运动的实时对话体验，提高口译系统的鲁棒性，并利用自我监督学习来进行训练，来缓解无对应数据集的问题，并提出了一个能够生成音频和视频的 AV-Renderer。

Dec, 2023

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

AV-data2vec：具有语境目标表示的自监督学习音视频语音表征

本文介绍了一个名为 AV-data2vec 的模型，该模型利用预测上下文表示来构建音频 - 视觉表示，可以结合音频和视频来提高语音识别性能，相比现有方法，在大多数情况下，AV-data2vec 的表现都更好。

Feb, 2023

AV-TranSpeech: 音视觉鲁棒语音 - 语音翻译

AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

通过合成进行语音增强的自监督学习

本文提出了一种基于去噪声码器的语音增强方法，利用自监督学习获取语音的相关特征，并采用最佳的自监督学习配置，采用对抗训练方式进行声音去噪，最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。

Nov, 2022

多模态深度卷积神经网络实现音视频语音增强

提出了一种音视频深度卷积神经网络（AVDCNN）语音增强模型，该模型在音频处理方面结合了视觉信息，并采用多任务学习框架进行重建音频和视觉信号。实验表明，该模型在语音增强方面表现显著优异，证明了整合视觉信息的有效性，并且优于现有的音频 - 视觉增强模型。

Sep, 2017

深度学习音 - 视觉语音增强的训练目标和目标函数

研究采用深度学习技术解决音视频语音增强任务时，目标量和目标函数的选择对性能至关重要；本实验研究了一系列不同的目标量和目标函数，结果表明直接估计掩模的方法在估计语音质量和可懂度方面表现最佳。

Nov, 2018