通过提出的两个新损失函数:音频 - 视觉关注损失和音频 - 视觉伪类一致性损失,我们向视频修复网络传递音频 - 视觉对应关系的先验知识,进而提高视频修复的性能。实验证明,我们的方法可以更好地恢复更广泛的视频场景,并且在场景中的声音对象局部遮挡时特别有效。
Oct, 2023
本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。
Jun, 2023
本文提出了一种名为视觉信息注入音频修补的多模态感知任务,通过学习视觉 - 音频联合特征空间,并在语音谱图上进行操作,能够修补音频中的缺失部分,实现音频与视频同步,经过大规模实验验证该方法的有效性。
Oct, 2019
该研究提出了一种新颖的序列到序列模型,通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号,证明了多模态方法在语音修复中的有效性。
Jun, 2024
通过引入 AV 特征,我们研究了一种序列到序列(seq2seq)语音修复模型,将语音修复技术扩展到同时受到音频和视觉数据干扰的情境中,实验证明我们的模型在提高语音质量和可理解性方面优于现有的变压器解决方案。同时,我们利用多任务学习框架,在恢复相关语音的同时进行口型阅读(将视频组件转录为文本)。
通过深度学习,对于图像和视频修复的基于深度学习的方法进行综合评述,并从高水平的修复流程、深度学习架构、模块设计等多个角度进行分类总结。同时,讨论了训练目标、常见基准数据集、评估指标以及各修复方法的优势、局限性及实际应用,并探讨了公开挑战和未来可能的研究方向。
Jan, 2024
本文提出了一种基于深度学习的快速视频修复网络,结合图像编解码模型,利用邻帧信息综合填充未知视频区域,并运用循环反馈和时间存储模块确保输出的时空连续性,与之前的视频修复方法相比,其结果更为语义正确和时空平滑,且可用于视频重定向任务并生成优质视觉效果。
May, 2019
使用语音自监督学习模型进行语音修复任务时,选择冻结一个模型并微调另一个模型以更好地适应单一或多说话者数据,提供了有效的信号重建策略。
May, 2024
提出了一种新颖的视频修复算法,通过 Deep Image Prior(DIP)推出的卷积网络,同时生成缺失的外观和光流信息,并采用一种无需先验训练的生成式方法进行修复。该方法具有良好的视觉效果和长期一致性。
Sep, 2019
利用机器学习技术,将音频转换成 Mel 频谱图进行图像修复来填补音频中长达 320ms 的缺失区域并且实现了转换回音频流,同时在 LJSpeech 数据集上展示出实时性能。
May, 2023