AudioSR:大规模多功能音频超分辨率
该研究介绍了一种新的音频处理技术,利用深度卷积神经网络提高音频的采样率,通过类似于图像超分辨率的过程,在测试过程中预测低分辨率信号中缺失的样本。该方法在实验中无需专门的音频处理技术,能够表现出更好的表现,显示出其在电话、压缩和文本转语音生成中的实用性
Aug, 2017
本文提出了一种基于神经声码器的语音超分辨率方法 (NVSR),该方法可以处理各种输入分辨率和上采样比例,其取得了优于当前最先进方法 WSRGlow 和 Nu-wave 的 8% 和 37% 的对数谱距离精度,并且具有显著更好的感知质量。
Mar, 2022
本文研究从噪声带限数据中恢复点源的叠加。我们仅仅了解一个物体在由某个截止频率限制的低频段的频谱,通过将频谱外推到更高频率来获得更高分辨率的估计。我们证明只要源之间相隔大于截止频率的两倍的倒数,求解一个简单的凸优化问题就可以在稳定的意义下产生一个估计,其中高分辨重建与真实值之间的逼近误差与噪声水平乘以超分辨因子(SRF)的平方成比例。
Nov, 2012
利用低成本高分辨率辅助 G 缓冲作为额外输入,我们提出了一种高效有效的超分辨率方法,通过多分辨率级别上的特征对齐和融合,能够以实时性能在 4K 分辨率上以 4 倍甚至 8 倍分辨率进行时间连贯的重建,相较于现有方法具有显著提高的质量和性能提升。
Oct, 2023
本文提出了一种新颖的方法,利用音频和低分辨率图像进行极端人脸超分辨率,通过建立人脸的潜在表征并使用深度学习进行融合,以提高高分辨率图像重建过程的正确性,同时可以提取面部属性。
Sep, 2019
本研究提出了一种任意尺度的超分辨率方法,用于提高科学数据的分辨率;基于算子学习,使用分层神经算子和自注意机制,利用 Sinc 滤波器实现不同层级之间的信息传递,并引入可学习的先验结构动态调整像素贡献权重,从而有效平衡模型中的梯度;在多个领域的不同数据集上进行了大量实验证明相对于最先进的方法,本方法有着持续的改进。
May, 2024
VideoGigaGAN 是一种新的生成 VSR 模型,能够产生具有高频细节和时间一致性的视频。该模型通过引入几个关键技术来显著改善视频上采样的时间一致性,与先前的 VSR 方法不同,VideoGigaGAN 生成具有更精细外观细节的时间一致视频。
Apr, 2024
本文综述了近年来深度学习在图像超分辨率中的广泛应用,重点介绍了监督式、非监督式、以及领域特定的图像超分辨率技术。同时讨论了公开可用的基准数据集和性能评估指标等重要问题,并提出了未来需要进一步研究的方向和问题。
Feb, 2019
使用 DSGAN 结构进行无监督学习,将自然图像特征引入通过双三次下采样降级的图像。通过频率分离技术,只需对高频部分进行对抗性训练,从而极大地提高超分辨率模型在真实世界图像上的性能表现。
Nov, 2019