基于评分的生成模型的音视频语音增强

MMJun, 2023

基于评分的生成模型的音视频语音增强

Audio-Visual Speech Enhancement with Score-Based Generative Models

Julius Richter, Simone Frintrop, Timo Gerkmann

TL;DR本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Abstract

This paper introduces an audio-visual speech enhancement system that leverages score-based generative models, also known as diffusion models, conditioned on visual information. In particular, we exploit audio-vis

audio-visual speech enhancement diffusion models self-supervised learning lipreading automatic speech recognition

发现论文，激发创造

基于扩散型生成模型的无监督语音增强

最近，条件评分驱动扩散模型在监督式语音增强领域引起了显著关注，取得了最先进的性能。然而，这些方法在泛化到未见条件时可能面临挑战。为了解决这个问题，我们引入了一种在无监督方式下操作、利用扩散模型的生成能力的替代方法。具体而言，训练阶段，在短时傅里叶变换（STFT）领域中使用评分驱动扩散模型学习了干净语音的先验分布，使其能够从高斯噪声中无条件地生成干净语音。然后，我们开发了一种通过将学习的干净语音先验与噪声模型结合起来进行语音增强的后验采样方法。噪声参数通过迭代的期望最大化（EM）方法与干净语音估计同时学习。据我们所知，这是第一个探索基于扩散的生成模型用于无监督语音增强的工作，与最近的变分自编码器（VAE）无监督方法和最先进的基于扩散的监督方法相比，取得了有希望的结果。因此，它为未来的无监督语音增强研究开辟了新的方向。

Sep, 2023

音视频语音编解码器：重新思考音视频语音增强通过再合成的方法

本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。

Mar, 2022

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

视觉回声：简单统一变压器用于音视频生成

通过使用简单轻量级的生成型 Transformer 模型，本论文在图像到音频生成任务上取得了更好的性能，同时也可用于音频到图像生成和协同生成。

May, 2024

透视对话：基于扩散模型的音频 - 视觉语音分离

本文介绍了 AVDiffuSS，一种基于扩散机制的音视频语音分离模型，通过视觉线索从声音混合中提取目标发言者的声音，该模型在保持自然性方面具有挑战，并提出了一种基于交叉注意力的特征融合机制，以实现两种模态的有效融合，并在语音生成中集成语音视觉对应的语音信息，通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音具有显著更好的自然音质。

Oct, 2023

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018

AV2Wav：基于扩散的连续自监督特征合成的音频 - 视觉语音增强

在这项工作中，我们介绍了 AV2Wav，这是一种基于重新综合的视听语音增强方法，可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集，然后在这个子集上训练扩散模型，该模型以 AV-HuBERT 的连续语音表示为条件生成波形，并使用抗噪训练。我们使用连续表示而不是离散表示来保留韵律和说话人信息。仅仅通过这个声码任务，该模型的语音增强性能就优于基于掩模的基线。我们进一步在清晰 / 噪声话语对上对扩散模型进行微调以提高性能。我们的方法在自动度量和人工听力测试中均优于基于掩模的基线，并且在听力测试中的质量接近目标语音。

Sep, 2023

预训练特征引导扩散模型用于语音增强

通过整合频谱特征到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，结合确定性离散积分方法（DDIM）来简化抽样步骤，我们的模型提高了效率和语音增强质量，同时在两个不同信噪比的公共数据集上展示出最先进的结果，超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能，还增强了实际部署能力，而不增加计算需求。

Jun, 2024

DiffV2S：基于扩散的带视觉引导的视频语音合成

本文提出了一种新颖的视觉导向说话者嵌入提取器，使用自监督预训练模型和提示调整技术，从输入的视觉信息中仅生成丰富的说话者嵌入信息，并在推断时间不需要额外的音频信息。利用提取的视觉导向说话者嵌入表示，我们进一步开发了一种基于扩散的视频到语音合成模型 DiffV2S，该模型以这些说话者嵌入和从输入视频中提取的视觉表示为条件。所提出的 DiffV2S 不仅保留了输入视频帧中包含的音素细节，还创建了一个高度可理解的梅尔频谱图，在其中多个说话者的说话者身份都得到了保留。实验结果表明，DiffV2S 相较于之前的视频到语音合成技术取得了最先进的性能。

Aug, 2023

基于 Transformer 的视频表示的视听场景感知对话生成

本研究探讨使用 Transformer-based 视频特征提取器在 Audio Visual Scene-Aware Dialog（AVSD）中解决长期时间视觉依赖和全局视觉信息的问题，并在答案生成方面取得了更高的目标性能评分。

Feb, 2022