使用离散隐变量神经网络进行语音合成的无监督声学单元发现

Apr, 2019

使用离散隐变量神经网络进行语音合成的无监督声学单元发现

Unsupervised acoustic unit discovery for speech synthesis using discrete latent-variable neural networks

Ryan Eloff, André Nortje, Benjamin van Niekerk, Avashna Govender, Leanne Nortje...

TL;DR本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模，使用自编码器架构进行中间离散化，在训练中，根据模型的特点对语音单元重新建模，以甄别可离散化的语音特征。在测试中，离线甄别采用未知说话者的语音，通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后，使用神经声码器将输出进行合成，比较分别使用分类变分自编码器（CatVAEs）, 矢量量化 VAEs（VQ-VAEs）和直通估计在两种语言上的不同压缩水平，并发现该模型可以在离散表示方面产生竞争性的合成质量

Abstract

For our submission to the ZeroSpeech 2019 challenge, we apply discrete latent-variable neural networks to unlabelled speech and use the discovered units for speech synthesis. Unsupervised discrete subword modelling could be useful for studies of phonetic category learning in infants or in low-resource speech technology requiring symbolic input. We use an aut

discrete latent-variable neural networks unsupervised subword modelling autoencoder architecture categorical variational autoencoders vocoder

发现论文，激发创造

使用 WaveNet 自编码器进行无监督的语音表示学习

本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示，并比较三个变体：简单维度约束、高斯变分自编码器和离散量化矢量自编码器，成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。

Jan, 2019

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

Zerospeech Challenge 2019 中的 VQVAE 无监督单元发现和多尺度 Code2Spec 反转器

我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统，并使用多种聚类算法和压缩方法进行了比较，结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。

May, 2019

使用编码器 - 解码器模型中的弱自上而下约束实现真正的无监督声学词嵌入

本文提出了一种基于编码器 - 解码器一一对应自编码器 (EncDec-CAE) 的无监督学习方法，用于从可变长度的语音以及无标签的语音数据中提取出与固定维度表示形式相对应的词嵌入，从而在无资源语音搜索、发现和索引系统中发挥重要作用，并在词辨别任务中相对于最接近的竞争对手提高了 24% 的平均精度。

Nov, 2018

自回归联合训练用于离散语音表示学习

通过生成模型和信息论的联合训练，实现了对离散语音表示的学习，发现该方法学习的语音表示与语音单元高度相关

Mar, 2022

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019

可解释性神经对话生成的无监督离散句子表示学习

本研究利用变量自编码器 (VAE) 算法提出 DI-VAE 和 DI-VST 模型，结合无监督离散语句表示学习方法，以增强对话模型的解释性生成能力，并成功验证其在真实对话数据集上的有效性。

Apr, 2018