基于深度学习的音视频言语修复

Oct, 2020

Audio-Visual Speech Inpainting with Deep Learning

Giovanni Morrone, Daniel Michelsanti, Zheng-Hua Tan, Jesper Jensen

TL;DR本文介绍了一种基于深度学习的框架，用于音频 - 视觉的语音修复，展示了多任务学习与视觉信息对语音信号修复的有效贡献并比较了仅音频信息下的表现。

Abstract

In this paper, we present a deep-learning-based framework for audio-visual speech inpainting, i.e., the task of restoring the missing parts of an acoustic speech signal from reliable audio context and uncorrupted

deep learning audio-visual speech inpainting multi-task learning phone recognition

发现论文，激发创造

音视频自监督引导的深度视频修复

通过提出的两个新损失函数：音频 - 视觉关注损失和音频 - 视觉伪类一致性损失，我们向视频修复网络传递音频 - 视觉对应关系的先验知识，进而提高视频修复的性能。实验证明，我们的方法可以更好地恢复更广泛的视频场景，并且在场景中的声音对象局部遮挡时特别有效。

Oct, 2023

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

基于视觉技术的深度音频修复

本文提出了一种名为视觉信息注入音频修补的多模态感知任务，通过学习视觉 - 音频联合特征空间，并在语音谱图上进行操作，能够修补音频中的缺失部分，实现音频与视频同步，经过大规模实验验证该方法的有效性。

Oct, 2019

序列到序列多模态语音修复

该研究提出了一种新颖的序列到序列模型，通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号，证明了多模态方法在语音修复中的有效性。

Jun, 2024

鲁棒的多模态语音修复：一种序列到序列的方法

通过引入 AV 特征，我们研究了一种序列到序列（seq2seq）语音修复模型，将语音修复技术扩展到同时受到音频和视觉数据干扰的情境中，实验证明我们的模型在提高语音质量和可理解性方面优于现有的变压器解决方案。同时，我们利用多任务学习框架，在恢复相关语音的同时进行口型阅读（将视频组件转录为文本）。

Jun, 2024

基于深度学习的图像和视频修复研究综述

通过深度学习，对于图像和视频修复的基于深度学习的方法进行综合评述，并从高水平的修复流程、深度学习架构、模块设计等多个角度进行分类总结。同时，讨论了训练目标、常见基准数据集、评估指标以及各修复方法的优势、局限性及实际应用，并探讨了公开挑战和未来可能的研究方向。

Jan, 2024

深度视频修复

本文提出了一种基于深度学习的快速视频修复网络，结合图像编解码模型，利用邻帧信息综合填充未知视频区域，并运用循环反馈和时间存储模块确保输出的时空连续性，与之前的视频修复方法相比，其结果更为语义正确和时空平滑，且可用于视频重定向任务并生成优质视觉效果。

May, 2019

填补空缺！结合自监督表示学习与神经声音合成实现语音修复

使用语音自监督学习模型进行语音修复任务时，选择冻结一个模型并微调另一个模型以更好地适应单一或多说话者数据，提供了有效的信号重建策略。

May, 2024

一种视频修复的内部学习方法

提出了一种新颖的视频修复算法，通过 Deep Image Prior（DIP）推出的卷积网络，同时生成缺失的外观和光流信息，并采用一种无需先验训练的生成式方法进行修复。该方法具有良好的视觉效果和长期一致性。

Sep, 2019

用生成对抗网络加强有缺口的语音音频信号

利用机器学习技术，将音频转换成 Mel 频谱图进行图像修复来填补音频中长达 320ms 的缺失区域并且实现了转换回音频流，同时在 LJSpeech 数据集上展示出实时性能。

May, 2023