学习遍历潜空间进行音乐乐谱修复
通过用户友好的图形界面,本研究探讨了使用 Hourglass Diffusion Transformer(HDiT)模型在 MIDI 钢琴卷帘图像上进行盖章区域修复的方法,并通过在特定区域添加额外噪音来增强音符生成。该方法通过像素空间的线性缩放以提供直观和可解释的控制,而不需要操作预训练自编码器提供的压缩潜在空间,并展示了其在旋律、伴奏和延续音符填充方面的成果,同时帮助增加音符密度以生成符合用户规格要求的音乐结构,甚至在这些结构超出训练数据分布的情况下仍然有效。
Jul, 2024
本文提出了一种基于深度神经网络和纹理传播的学习方法来完成图像修复,通过分离任务为推理和翻译两个步骤并用简单的启发式算法指导局部纹理从边界到空洞的传播,我们证明了我们的方法在几个公共数据集上能够产生比以前的最先进方法更高质量的视觉结果。
Nov, 2017
通过提出的两个新损失函数:音频 - 视觉关注损失和音频 - 视觉伪类一致性损失,我们向视频修复网络传递音频 - 视觉对应关系的先验知识,进而提高视频修复的性能。实验证明,我们的方法可以更好地恢复更广泛的视频场景,并且在场景中的声音对象局部遮挡时特别有效。
Oct, 2023
本文提出了一种名为视觉信息注入音频修补的多模态感知任务,通过学习视觉 - 音频联合特征空间,并在语音谱图上进行操作,能够修补音频中的缺失部分,实现音频与视频同步,经过大规模实验验证该方法的有效性。
Oct, 2019
通过深度学习,对于图像和视频修复的基于深度学习的方法进行综合评述,并从高水平的修复流程、深度学习架构、模块设计等多个角度进行分类总结。同时,讨论了训练目标、常见基准数据集、评估指标以及各修复方法的优势、局限性及实际应用,并探讨了公开挑战和未来可能的研究方向。
Jan, 2024
本研究提出了一种新的图像修复方法,结合了神经网络的先验知识和用户的引导,使用自动编码器和语义解码器完成两个阶段,实现对修复结果的自定义控制,实验结果表明该方法在修复质量和可控性方面优于现有方法。
Jan, 2022
提出了一种使用 CNN 和 Transformers 进行全局推理的 few-shot generative residual image inpainting 方法,通过图像级和补丁级鉴别器及伪造补丁的对抗训练策略实现高质量修复效果,并通过对比评估表明该方法优于以往的 few-shot image inpainting 方法。
Apr, 2023
本文提出了一种基于深度学习的快速视频修复网络,结合图像编解码模型,利用邻帧信息综合填充未知视频区域,并运用循环反馈和时间存储模块确保输出的时空连续性,与之前的视频修复方法相比,其结果更为语义正确和时空平滑,且可用于视频重定向任务并生成优质视觉效果。
May, 2019