仅使用清晰语音的自监督语音质量估计和增强
本文介绍了使用自监督学习方法的矢量量化掩模自动编码器模型 VQ-MAE-S,该模型基于离散空间的 向量量化变分自动编码器 中的掩模自动编码器(MAE)对语音信号中的情感进行识别。在 VoxCeleb2 数据集的 预训练 和情感性语音数据的 微调下,该模型在语音情感识别方面比使用原始频谱图的 MAE 和其他先进方法表现更好。
Apr, 2023
本研究提出了一种基于矢量量化和自监督学习的 MAE 模型,对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案,实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后,表现优于现有的音频视觉 SER 方法。
May, 2023
使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元,并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。
Jun, 2022
论文介绍了一种针对语音识别的自监督学习方法,通过使用随机投影量化器生成离散标签,从而学习模型预测被屏蔽掉的语音信号,并在不更新随机初始化矩阵和码本的情况下实现。通过实验,该方法在 LibriSpeech 上取得了与自监督非流式模型相似的字错率,并且比 wav2vec 2.0 和 w2v-BERT 的流式模型具有更低的字错率和延迟,在多语种任务中也优于旧有的 wav2vec 2.0 和 w2v-BERT。
Feb, 2022
通过 VQ-VAE 的自监督式预训练,我们提出了一种自我监督式风格增强方法,用于表达性有声读物语音合成,实验证明我们的方法能够有效地提高有声读物合成中合成语音的自然度和表现力。
Dec, 2023
我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统,并使用多种聚类算法和压缩方法进行了比较,结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。
May, 2019
本文提出了利用预训练自我的向量量化神经网络来实现语音分段和聚类的无监督学习方法,并在各种任务中展示出可以在低码率下得到更好的表现的切分方法。
Dec, 2020
本文提出了一种新颖的半监督文本到语音(TTS)框架 QS-TTS,通过利用更多未标记的语音音频,并借助向量量化的自监督语音表示学习(VQ-S3RL)来改善 TTS 质量,从而降低对有监督数据的需求。
Aug, 2023
本文提出了一种基于去噪声码器的语音增强方法,利用自监督学习获取语音的相关特征,并采用最佳的自监督学习配置,采用对抗训练方式进行声音去噪,最终实现了一种具备实时能力、优化了客观指标并超越了当前最先进的语音增强模型的方案。
Nov, 2022