使用 StyleGAN2 和 MEL 光谱图生成多样化的人声爆发

ICMLJun, 2022

使用 StyleGAN2 和 MEL 光谱图生成多样化的人声爆发

Generating Diverse Vocal Bursts with StyleGAN2 and MEL-Spectrograms

Marco Jiralerspong, Gauthier Gidel

TL;DR使用条件 StyleGAN2 模型对经过处理的音频中的 Mel-spectrograms 进行训练，并将生成的 Mel-spectrograms 逆向回音频领域，从而成功改进了 ICML Expressive Vocalizations 竞赛的基线（qua 为所有情感获得 1.76 的 FAD）。

Abstract

We describe our approach for the generative emotional vocal burst task (ExVo Generate) of the icml expressive vocalizations competition. We train a conditional →

emotional vocal burst icml expressive vocalizations competition stylegan2 mel-spectrograms audio domain

发现论文，激发创造

ICML 2022 表达性语音化工作坊和赛事：识别、生成和个性化语音爆发

本文介绍了 ICML Expressive Vocalization (ExVo) 比赛，涵盖三个竞赛项目，利用大规模数据集进行基于多任务模型、生成模型和少样本学习的声音情绪识别。使用最先进的机器学习策略，提供各种竞赛项目的基本性能评估。

May, 2022

MelGAN: 生成对抗网络用于条件波形合成

该研究提供了一种新的、用于生成高质量音频的 GAN 结构以及相关训练技巧，并证明了其在语音合成、音乐领域翻译和音乐合成中的有效性。

Oct, 2019

一款情感感知的语音叙述应用程序

研究探索了通过 MelGAN-VC 给声音进行情感风格转换，利用 LSTM 情感分类器对生成的声音进行分类，得出以 “悲伤声音” 转换效果较好为主要结论。

Sep, 2022

StyleMelGAN：一种高效高保真的对抗性合成声码器，具有时态自适应归一化

提出 StyleMelGAN 算法，实现高保真度语音合成，并解决了低计算复杂度的问题。

Nov, 2020

在语音情感识别中使用谐振和打击成分的杠杆化 Mel 频谱图

该研究通过对 Mel 谱图的谐波和打击性组成部分进行分析，提出了一个新的架构，包括特征映射生成器算法、基于 CNN 的网络特征提取器和多层感知器（MLP）分类器，研究有效的数据增强技术建立了丰富的混合特征映射，最终在 Berlin EMO-DB 数据库上取得了 92.79% 的测试准确率，结果优于之前使用 CNN-VGG16 的研究。

Dec, 2023

ACII 2022 情感语音爆发研讨会和比赛：理解一种关键研究中被低估的情感表达方式

本文介绍 ACII 情感语音爆发赛事和四个任务，分别为 A-VB-High, A-VB-Two, A-VB-Culture, A-VB-Type，使用机器学习方法对情感识别进行建模与训练，并在大规模数据集上进行了基准测试。

Jul, 2022

Multi-SpectroGAN：基于对抗式风格组合的高多样性高保真谱图生成技术，用于语音合成

这篇论文提出了一种基于生成对抗网络的多扬声器模型，可以仅基于对抗性反馈就训练出高度多样化和高保真度的语音合成，同时可以控制和混合多种口音和语气。

Dec, 2020

cMelGAN：基于 Mel 频谱的高效条件生成模型

研究了使用机器学习分析音乐的难点，提出了一种基于 Mel 频谱图和卷积神经网络架构的音乐创作生成模型 cMelGAN，并与基于音符的生成模型进行对比实验。

May, 2022

自监督注意力网络和不确定性损失加权在语音突发多任务情感识别中的应用

本文展示了通过使用自主培训的大型音频模型作为共享特征提取器并结合分类器链和注意力网络框架以及不确定性损失加权策略提高情感声音爆发分类和情感预测的方法，以在 ACII 情感声音爆发竞赛中显著优于基准结果的结果。

Sep, 2022

通用 MelGAN: 多领域高保真波形生成的强力神经声码器

我们提出了 Universal MelGAN，它是一种合成高保真语音的声码器，可以在多个领域中使用，并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题，最终生成高度逼真的语音信号。

Nov, 2020