使用修改的 DCT 频谱驯服基于 Transformer 的 GAN 进行语音超分辨率

May, 2023

使用修改的 DCT 频谱驯服基于 Transformer 的 GAN 进行语音超分辨率

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra

Chenhao Shuai, Chaohua Shi, Lu Gan, Hongqing Liu

TL;DR提出基于 MDCT 的 mdctGAN SSR 框架，通过敌对学习在 MDCT 域中以相位感知的方式重构高质量的语音，无需使用语音编解码器或其他额外的后处理，实验结果显示该模型在各种输入速率下，实现了 48 kHz 目标分辨率下的最新的对数组距离（LSD）性能。

Abstract

speech super-resolution (SSR) aims to recover a high resolution (HR) speech from its corresponding low resolution (LR) counterpart. Recent SSR methods focus more on the reconstruction of the magnitude spectrogram

speech super-resolution mdctgan phase reconstruction spectrogram adversarial learning

发现论文，激发创造

可解释的频谱转换攻击对说话人识别的影响

通过将输入语音进行 MDCT 处理，并轻微修改不同频带的能量，该文提出了一个名为 STA-MDCT 的通用框架，该框架不仅能够在黑盒受害者模型中提高对抗声音的可转移性，而且能够实现梯度攻击，并使用模型集成来进一步提高攻击效果并通过类激活映射（CAM）对对抗声音进行显著性地可视化处理。

Feb, 2023

离散余弦变换网络用于引导深度图超分辨率

提出一种新颖的离散余弦变换网络（DCTNet）来解决多模态图像处理中导向深度超分辨率（GDSR）的挑战，包括理解工作机制、提取跨模态特征和减弱 RGB 纹理过度传递，通过离散余弦变换模块、半耦合特征提取模块和边缘注意机制来分别解决这些问题。实验结果表明，DCTNet 的性能比之前最先进的方法更好，在参数数量相对较小的情况下能够更好地处理导向深度超分辨率。

Apr, 2021

SSD-GAN: 空间和频谱域中真实度的度量

本文提出了一种名为 SSD-GAN 的 GAN 算法增强版，加入了一个基于频率感知的分类器来测量输入图像在空间和频谱领域内的真实性，并采用增强版的辨别器来激励生成器生成真实数据高频内容和精确细节。该方法易于集成并验证其有效性。

Dec, 2020

可解释的块项张量建模超光谱超分辨率

本文研究了基于张量分解的高光谱超分辨率技术，提出了一种基于 LL1 张量分解的方法，可以将潜在因子解释为光谱图像的关键组成部分，从而便于加入先验信息以提高性能。

Jun, 2020

CMGAN：基于 Conformer 的度量 GAN 语音增强

本文提出了一种基于 Conformer 的度量生成对抗网络（CMGAN），用于在时频域中进行语音增强，定量分析表明，CMGAN 能够比以前的模型更好地提高性能。

Mar, 2022

CMGAN：基于 Conformer 的度量 GAN 用于单声道语音增强

本文提出了基于 Conformers 的度量生成对抗网络（CMGAN）用于时频域中的语音增强，并且在消除噪声、去混响和超分辨率等三个语音增强任务上取得了优越的性能。

Sep, 2022

DISGAN：基于小波引导的鉴别器指导 GAN 进行 MRI 超分辨率重建与噪声清除

提出了一种名为 Denoising Induced Super-resolution GAN (DISGAN) 的新方法，在 MRI 超分辨率和去噪任务中使用单个深度学习模型同时解决两个任务，通过引入 3D 离散小波变换作为频域约束，该模型在超分辨率图像生成和去噪方面表现出色。

Aug, 2023

实际场景超分辨率的频率分离

使用 DSGAN 结构进行无监督学习，将自然图像特征引入通过双三次下采样降级的图像。通过频率分离技术，只需对高频部分进行对抗性训练，从而极大地提高超分辨率模型在真实世界图像上的性能表现。

Nov, 2019

通过缩放实现更好的语音合成

本文介绍了一种将图像生成领域的进展应用到语音合成的方法，旨在创造出一种具有表现力和多音色的文本朗读系统 TorToise。

May, 2023

MP3net: 用简单的卷积 GAN 从原始音频中生成连贯分钟级音乐

本文提出了一种基于卷积神经网络的生成对抗网络，应用了音频压缩和 MDCT 数据表示等技术生成长时间和高质量的音频样本，并利用人耳的听觉掩蔽效应和心理声学感知限制来拓宽真实分布并稳定训练过程。经过 250 小时的训练，使用单个 Cloud TPUv2 可以创造出 95 秒的立体声音轨，且模型具有快速生成新歌曲的优势。

Jan, 2021