零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

May, 2020

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge

Benjamin van Niekerk, Leanne Nortje, Herman Kamper

TL;DR本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

Abstract

In this paper, we explore vector quantization for acoustic unit discovery. Leveraging unlabelled data, we aim to learn discrete representations of speech that separate →

vector quantization acoustic unit discovery neural models phonetic content speech representation

发现论文，激发创造

使用离散隐变量神经网络进行语音合成的无监督声学单元发现

本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模，使用自编码器架构进行中间离散化，在训练中，根据模型的特点对语音单元重新建模，以甄别可离散化的语音特征。在测试中，离线甄别采用未知说话者的语音，通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后，使用神经声码器将输出进行合成，比较分别使用分类变分自编码器（CatVAEs）, 矢量量化 VAEs（VQ-VAEs）和直通估计在两种语言上的不同压缩水平，并发现该模型可以在离散表示方面产生竞争性的合成质量

Apr, 2019

从视觉语言到学习层级离散语言单元

本文中提出了一种通过将向量量化层整合到基于视觉语音的神经模型中来学习离散语言单元的方法。我们展示了我们的方法可以捕捉到单词级别和子词级别的单元，我们还将子词单元应用到了 ZeroSpeech 2019 挑战中，取得了较好的结果。

Nov, 2019

Zerospeech Challenge 2019 中的 VQVAE 无监督单元发现和多尺度 Code2Spec 反转器

我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统，并使用多种聚类算法和压缩方法进行了比较，结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。

May, 2019

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Jun, 2022

VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

本文利用 U-Net 架构和向量量化方法来优化声音转换，取得了良好的声音自然度和说话人相似度。

Jun, 2020

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017

使用 WaveNet 自编码器进行无监督的语音表示学习

本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示，并比较三个变体：简单维度约束、高斯变分自编码器和离散量化矢量自编码器，成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。

Jan, 2019

利用自监督量化神经网络实现无监督的音素和单词分割

本文提出了利用预训练自我的向量量化神经网络来实现语音分段和聚类的无监督学习方法，并在各种任务中展示出可以在低码率下得到更好的表现的切分方法。

Dec, 2020

DeCoAR 2.0：具有向量量化的深度语境化声学表示

文章介绍了使用语音表征学习的方法在没有标签的数据上训练语音识别模型的新方法 DeCoAR 2.0。该模型采用 Transformers 编码模型，引入了向量量化层来对语音表征进行训练，并在多个数据稀疏的场景下表现出一致的提高。

Dec, 2020

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019