FastFit: 通过多个 STFT 代替 U-Net 编码器，实现实时迭代神经声码器

May, 2023

FastFit: 通过多个 STFT 代替 U-Net 编码器，实现实时迭代神经声码器

FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs

Won Jang, Dan Lim, Heayoung Park

TL;DR本文介绍了一种新的神经声码器架构 FastFit, 其使用多个短时傅里叶变换 (STFT) 来替换 U-Net 编码器，从而实现更快的生成速度，而不会牺牲样品质量。通过客观和主观的评估，我们证明了该模型提高了将近两倍的基准迭代声码器的生成速度，同时保持高音质。进一步表明，在多说话人和零 - shot 文本到语音等评估场景中，FastFit 产生了与其他基线模型类似的音质。

Abstract

This paper presents fastfit, a novel neural vocoder architecture that replaces the U-Net encoder with multiple short-time fourier transforms

fastfit neural vocoder short-time fourier transforms sample quality generation speed

发现论文，激发创造

HiFTNet：具备谐波加噪滤波器和逆短时傅里叶变换的高速高质量神经声码器

本文介绍了一种名为 HiFTNet 的扩展模型，通过在时频域中使用基频（F0）的正弦源来快速推理，结合了反短时傅里叶变换（iSTFT）和谐波加噪声源滤波器，实现了高效、高质量的神经音频编码，为实时高质量语音合成应用开辟了新的前景。

Sep, 2023

iSTFTNet2：基于 1D-2D CNN 的更快速、更轻量化 iSTFT 基础神经声码器

iSTFTNet2 是 iSTFTNet 的改进版本，使用 1D 和 2D CNN 分别模拟时间和谱图结构，提高了模拟高维谱图的能力，并且保持了速度和语音质量。

Aug, 2023

使用全卷积网络进行语音去混响

本文利用全卷积网络 (FCN) 来处理语音信号的混响问题，提出了用 U-Net 和 GAN 算法来处理时频短时傅里叶变换 (STFT) 表示的语音信号。通过与其他算法的比较，结果表明本文提出的方法在大多数情况下表现更好。

Mar, 2018

Fast-FNet: 通过高效傅里叶层加速 Transformer Encoder 模型

本研究比较了基于 Transformer 的语言模型中的注意力机制和傅里叶变换，并提出了几种采用更高效的傅里叶变换的模型架构，以提高模型效率。

Sep, 2022

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

用快速傅立叶变换优化卷积神经网络在目标识别中的应用

该研究提出使用基于 FFT 的 U-Net 对卷积神经网络中的图像卷积成本进行改进，并应用于 BBBC 数据集，成功地将训练时间从 600-700ms / 步缩短至 400-500ms / 步，以及在 IoU 指标上取得了显著的提高。

Oct, 2020

增量式 FastPitch：基于分块的高质量文本语音合成

提出了增量 FastPitch，这是一种使用块基 FFT 块、受限的块注意力蒙版进行训练和固定尺寸过去模型状态进行推理的 FastPitch 变体，可以产生与并行 FastPitch 相当的语音质量，并且具有更低的延迟，适用于实时语音应用。

Jan, 2024

FNet: 用 Fourier 变换混合 token

通过使用线性混合器代替自注意层，与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性，同时在标准 512 输入长度的 GPU 上训练速度提高了 80%，在 TPU 上提高了 70%。在更长的输入长度上，FNet 模型速度极快，在长序列基准测试中，FNet 模型能够匹配最精确模型的准确性，提供更快的模型训练速度。此外，FNet 的内存占用相对较小，在较小的模型尺寸下运行的性能优于 Transformer 模型。

May, 2021

高保真神经音频压缩

利用神经网络技术，提出了一种先进的实时高保真音频编解码器，其采用流式编解码器结构和量化的潜在空间，并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中，该方法在所有评估指标下均优于基线方法。

Oct, 2022

歌声的频谱绘制：U-Net 辅助的人声分割

该研究通过使用短时傅里叶变换（STFT）和 UNet 神经网络，实现了从音乐频谱图中准确分离人声元素，取得了令人瞩目的音频源分离结果。

May, 2024