序列到序列多模态语音修复
通过引入 AV 特征,我们研究了一种序列到序列(seq2seq)语音修复模型,将语音修复技术扩展到同时受到音频和视觉数据干扰的情境中,实验证明我们的模型在提高语音质量和可理解性方面优于现有的变压器解决方案。同时,我们利用多任务学习框架,在恢复相关语音的同时进行口型阅读(将视频组件转录为文本)。
Jun, 2024
本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。
Jun, 2023
本文提出了一种名为视觉信息注入音频修补的多模态感知任务,通过学习视觉 - 音频联合特征空间,并在语音谱图上进行操作,能够修补音频中的缺失部分,实现音频与视频同步,经过大规模实验验证该方法的有效性。
Oct, 2019
通过提出的两个新损失函数:音频 - 视觉关注损失和音频 - 视觉伪类一致性损失,我们向视频修复网络传递音频 - 视觉对应关系的先验知识,进而提高视频修复的性能。实验证明,我们的方法可以更好地恢复更广泛的视频场景,并且在场景中的声音对象局部遮挡时特别有效。
Oct, 2023
该论文介绍了一种用于图像修复的新型深度神经网络,该网络包含了一个修复分支和两个辅助分支,能够有效地利用多模式定位和语义信息,实现对各种正 / 不规则图像遮挡的修复,达到了最好的效果。
Aug, 2022
使用语音自监督学习模型进行语音修复任务时,选择冻结一个模型并微调另一个模型以更好地适应单一或多说话者数据,提供了有效的信号重建策略。
May, 2024
本研究提出了一种新的图像修复方法,结合了神经网络的先验知识和用户的引导,使用自动编码器和语义解码器完成两个阶段,实现对修复结果的自定义控制,实验结果表明该方法在修复质量和可控性方面优于现有方法。
Jan, 2022
本文提出了一种基于深度学习的快速视频修复网络,结合图像编解码模型,利用邻帧信息综合填充未知视频区域,并运用循环反馈和时间存储模块确保输出的时空连续性,与之前的视频修复方法相比,其结果更为语义正确和时空平滑,且可用于视频重定向任务并生成优质视觉效果。
May, 2019
本文介绍了一种基于 WaveMix 的全卷积神经网络结构 WavePaint 用于图像修复,采用 2D 离散小波变换进行空间和多分辨率的令牌混合,与目前最先进的模型相比,WavePaint 模型参数更少,具有相当的泛化性。
Jul, 2023