利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现
本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模,使用自编码器架构进行中间离散化,在训练中,根据模型的特点对语音单元重新建模,以甄别可离散化的语音特征。在测试中,离线甄别采用未知说话者的语音,通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后,使用神经声码器将输出进行合成,比较分别使用分类变分自编码器(CatVAEs), 矢量量化 VAEs(VQ-VAEs)和直通估计在两种语言上的不同压缩水平,并发现该模型可以在离散表示方面产生竞争性的合成质量
Apr, 2019
本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示,并比较三个变体:简单维度约束、高斯变分自编码器和离散量化矢量自编码器,成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。
Jan, 2019
本文提出两种神经模型,均使用向量量化技术将连续特征映射为有限的编码,旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上,我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交,相对提高超过 30%。
May, 2020
使用变分自编码器实现了对自然语音生成过程的建模与学习,获得了较大突破。利用学习的潜在空间算术操作,实现了对语音的音素内容或说话人身份的无监督修改,无需平行监控数据。
Apr, 2017
提出了一种基于自编码器的自监督度量方法(VQScore),用于评估语音质量,并结合领域知识进行模型设计,同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明,该方法和增强模型与有监督基线模型具有竞争力。
Feb, 2024
我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统,并使用多种聚类算法和压缩方法进行了比较,结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。
May, 2019
本文通过信息论的方式将每个语音学类别表示为离散单元的分布,以研究表征和离散化的语音输入与音素这样的抽象语音学类别之间的关系,并应用于两种不同的自监督模型进行研究,揭示了语音学类别的熵反映了底层语音语音变化的可变性,同时确认了这种映射的缺乏直接对应关系。
Jun, 2023
该研究提出对于语音情感识别任务,在深度生成模型 VAE 的启发下,使用 VAEs 学习语音信号的潜在表征,并使用这种表征来分类情感,证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。
Dec, 2017
本文提出了一种离散潜在空间的顺序先验方法,可以更自然地生成高度连续的语音,通过使用向量量化(VQ)对潜在特征进行离散化,并分别在结果上训练自回归(AR)先验模型,在听觉测试和自动语音识别(ASR)性能的客观指标方面,实验结果表明所提出的模型显著提高了随机样本生成的自然度,而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。
Feb, 2020