基于视觉技术的深度音频修复

ICCVOct, 2019

Vision-Infused Deep Audio Inpainting

Hang Zhou, Ziwei Liu, Xudong Xu, Ping Luo, Xiaogang Wang

TL;DR本文提出了一种名为视觉信息注入音频修补的多模态感知任务，通过学习视觉 - 音频联合特征空间，并在语音谱图上进行操作，能够修补音频中的缺失部分，实现音频与视频同步，经过大规模实验验证该方法的有效性。

Abstract

multi-modality perception is essential to develop interactive intelligence. In this work, we consider a new task of visual information-infused audio inpainting, \ie synthesizing missing audio segments that correspond to their accompanying videos. We identify two key aspects for a succe

multi-modality perception visual information-infused audio inpainting spectrograms visual-audio joint feature space music-extra-solo dataset

发现论文，激发创造

基于深度学习的音视频言语修复

本文介绍了一种基于深度学习的框架，用于音频 - 视觉的语音修复，展示了多任务学习与视觉信息对语音信号修复的有效贡献并比较了仅音频信息下的表现。

Oct, 2020

音视频自监督引导的深度视频修复

通过提出的两个新损失函数：音频 - 视觉关注损失和音频 - 视觉伪类一致性损失，我们向视频修复网络传递音频 - 视觉对应关系的先验知识，进而提高视频修复的性能。实验证明，我们的方法可以更好地恢复更广泛的视频场景，并且在场景中的声音对象局部遮挡时特别有效。

Oct, 2023

序列到序列多模态语音修复

该研究提出了一种新颖的序列到序列模型，通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号，证明了多模态方法在语音修复中的有效性。

Jun, 2024

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

鲁棒的多模态语音修复：一种序列到序列的方法

通过引入 AV 特征，我们研究了一种序列到序列（seq2seq）语音修复模型，将语音修复技术扩展到同时受到音频和视觉数据干扰的情境中，实验证明我们的模型在提高语音质量和可理解性方面优于现有的变压器解决方案。同时，我们利用多任务学习框架，在恢复相关语音的同时进行口型阅读（将视频组件转录为文本）。

Jun, 2024

基于深度学习的图像和视频修复研究综述

通过深度学习，对于图像和视频修复的基于深度学习的方法进行综合评述，并从高水平的修复流程、深度学习架构、模块设计等多个角度进行分类总结。同时，讨论了训练目标、常见基准数据集、评估指标以及各修复方法的优势、局限性及实际应用，并探讨了公开挑战和未来可能的研究方向。

Jan, 2024

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

基于多模态的无偏导向图像修复

该论文介绍了一种用于图像修复的新型深度神经网络，该网络包含了一个修复分支和两个辅助分支，能够有效地利用多模式定位和语义信息，实现对各种正 / 不规则图像遮挡的修复，达到了最好的效果。

Aug, 2022

学习遍历潜空间进行音乐乐谱修复

研究在交互式音乐创作方面，提出了一种基于深度学习的音乐谱补全新方法。该模型可以考虑音乐过去和未来的背景信息，并能够以有意义的方式相互关联。通过与其他模型比较，在客观和主观的评价方法下表现出有意义的谱补全能力，具有应用交互性音乐创作的潜力。

Jul, 2019

深度生成模型在语义图像修复中的应用

本文提出了一种基于生成模型的新型语义图像修复方法，该方法可在缺失的内容相互独立的情况下进行推理，并取得超越其他方法的像素级真实感。

Jul, 2016