序列到序列多模态语音修复

Jun, 2024

Sequence-to-Sequence Multi-Modal Speech In-Painting

Mahsa Kadkhodaei Elyaderani, Shahram Shirani

TL;DR该研究提出了一种新颖的序列到序列模型，通过编码器 - 解码器架构的方式利用视觉信息来修复音频信号，证明了多模态方法在语音修复中的有效性。

Abstract

speech in-painting is the task of regenerating missing audio contents using reliable context information. Despite various recent studies in multi-modal perception of audio in-painting, there is still a need for an effective infusion of visual and auditory information in →

speech in-painting multi-modal perception sequence-to-sequence model encoder-decoder architecture audio signals

发现论文，激发创造

鲁棒的多模态语音修复：一种序列到序列的方法

通过引入 AV 特征，我们研究了一种序列到序列（seq2seq）语音修复模型，将语音修复技术扩展到同时受到音频和视觉数据干扰的情境中，实验证明我们的模型在提高语音质量和可理解性方面优于现有的变压器解决方案。同时，我们利用多任务学习框架，在恢复相关语音的同时进行口型阅读（将视频组件转录为文本）。

Jun, 2024

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

基于视觉技术的深度音频修复

本文提出了一种名为视觉信息注入音频修补的多模态感知任务，通过学习视觉 - 音频联合特征空间，并在语音谱图上进行操作，能够修补音频中的缺失部分，实现音频与视频同步，经过大规模实验验证该方法的有效性。

Oct, 2019

基于深度学习的音视频言语修复

本文介绍了一种基于深度学习的框架，用于音频 - 视觉的语音修复，展示了多任务学习与视觉信息对语音信号修复的有效贡献并比较了仅音频信息下的表现。

Oct, 2020

音视频自监督引导的深度视频修复

通过提出的两个新损失函数：音频 - 视觉关注损失和音频 - 视觉伪类一致性损失，我们向视频修复网络传递音频 - 视觉对应关系的先验知识，进而提高视频修复的性能。实验证明，我们的方法可以更好地恢复更广泛的视频场景，并且在场景中的声音对象局部遮挡时特别有效。

Oct, 2023

基于多模态的无偏导向图像修复

该论文介绍了一种用于图像修复的新型深度神经网络，该网络包含了一个修复分支和两个辅助分支，能够有效地利用多模式定位和语义信息，实现对各种正 / 不规则图像遮挡的修复，达到了最好的效果。

Aug, 2022

填补空缺！结合自监督表示学习与神经声音合成实现语音修复

使用语音自监督学习模型进行语音修复任务时，选择冻结一个模型并微调另一个模型以更好地适应单一或多说话者数据，提供了有效的信号重建策略。

May, 2024

使用语义指导的交互式图像修复

本研究提出了一种新的图像修复方法，结合了神经网络的先验知识和用户的引导，使用自动编码器和语义解码器完成两个阶段，实现对修复结果的自定义控制，实验结果表明该方法在修复质量和可控性方面优于现有方法。

Jan, 2022

深度视频修复

本文提出了一种基于深度学习的快速视频修复网络，结合图像编解码模型，利用邻帧信息综合填充未知视频区域，并运用循环反馈和时间存储模块确保输出的时空连续性，与之前的视频修复方法相比，其结果更为语义正确和时空平滑，且可用于视频重定向任务并生成优质视觉效果。

May, 2019

WavePaint: 自监督修复的高效混合器

本文介绍了一种基于 WaveMix 的全卷积神经网络结构 WavePaint 用于图像修复，采用 2D 离散小波变换进行空间和多分辨率的令牌混合，与目前最先进的模型相比，WavePaint 模型参数更少，具有相当的泛化性。

Jul, 2023