DiffV2S：基于扩散的带视觉引导的视频语音合成

ICCVAug, 2023

DiffV2S：基于扩散的带视觉引导的视频语音合成

DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding

Jeongsoo Choi, Joanna Hong, Yong Man Ro

TL;DR本文提出了一种新颖的视觉导向说话者嵌入提取器，使用自监督预训练模型和提示调整技术，从输入的视觉信息中仅生成丰富的说话者嵌入信息，并在推断时间不需要额外的音频信息。利用提取的视觉导向说话者嵌入表示，我们进一步开发了一种基于扩散的视频到语音合成模型 DiffV2S，该模型以这些说话者嵌入和从输入视频中提取的视觉表示为条件。所提出的 DiffV2S 不仅保留了输入视频帧中包含的音素细节，还创建了一个高度可理解的梅尔频谱图，在其中多个说话者的说话者身份都得到了保留。实验结果表明，DiffV2S 相较于之前的视频到语音合成技术取得了最先进的性能。

Abstract

Recent research has demonstrated impressive results in video-to-speech synthesis which involves reconstructing speech solely from visual input. However, previous works have struggled to accurately synthesize speech due to a lack of sufficient guidance for the model to infer the correct content with the appropriate sound. To resolve the issue, they have adopt

video-to-speech synthesis speaker embedding vision-guided diffv2s mel-spectrogram

发现论文，激发创造

基于评分的生成模型的音视频语音增强

本文介绍了一种利用基于分数的生成模型，即扩散模型，以视觉信息为条件的音频视觉语音增强系统。通过利用在口形识别上进行了微调的自我监督学习模型获得的音频视觉嵌入，将其变换器的编码器的分层特征聚合、时序对齐并合并到噪声条件分数网络中。实验评估表明，所提出的音频视觉语音增强系统在语音质量和减少生成物品的方面具有改进效果，并且减少了发音困惑等方面。这得到了下游的自动语音识别模型的单词错误率的支持，其中尤其在输入信噪比低的情况下，该模型的单词错误率明显降低。

Jun, 2023

透视对话：基于扩散模型的音频 - 视觉语音分离

本文介绍了 AVDiffuSS，一种基于扩散机制的音视频语音分离模型，通过视觉线索从声音混合中提取目标发言者的声音，该模型在保持自然性方面具有挑战，并提出了一种基于交叉注意力的特征融合机制，以实现两种模态的有效融合，并在语音生成中集成语音视觉对应的语音信息，通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果，生成的语音具有显著更好的自然音质。

Oct, 2023

AADiff: 音频对齐视频生成与文本到图像扩散

本文介绍了一种新的 T2V 框架，通过引入音频信号来控制时间动态，从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法，以在视频综合的时间灵活性和一致性之间取得良好平衡，并通过实验验证了方法的有效性，并提出了实际应用。

May, 2023

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

VisageSynTalk：通过语音面部特征选择，实现看不见的说话者的视频合成语音

该论文介绍了一种从无声说话人面部视频中重建语音的方法，该方法通过分离视频中的语音内容和面部特征，并采用基于面部特征的语音合成器来综合这些分离的表示，实现了即使给定未知主题的视频也能生成包含正确内容的语音。

Jun, 2022

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

AV2Wav：基于扩散的连续自监督特征合成的音频 - 视觉语音增强

在这项工作中，我们介绍了 AV2Wav，这是一种基于重新综合的视听语音增强方法，可以在现实训练数据的挑战下生成清晰的语音。我们使用神经质量评估器从视听语音语料库中获取接近干净的子集，然后在这个子集上训练扩散模型，该模型以 AV-HuBERT 的连续语音表示为条件生成波形，并使用抗噪训练。我们使用连续表示而不是离散表示来保留韵律和说话人信息。仅仅通过这个声码任务，该模型的语音增强性能就优于基于掩模的基线。我们进一步在清晰 / 噪声话语对上对扩散模型进行微调以提高性能。我们的方法在自动度量和人工听力测试中均优于基于掩模的基线，并且在听力测试中的质量接近目标语音。

Sep, 2023