利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

Jun, 2022

利用 VQ-VAE 从口腔和声学特征进行自监督语音单元发现

Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE

Marc-Antoine Georges, Jean-Luc Schwartz, Thomas Hueber

TL;DR使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元，并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。

Abstract

The human perception system is often assumed to recruit motor knowledge when processing auditory speech inputs. Using articulatory modeling and deep learning, this study examines how this articulatory information can be used for discovering →

articulatory modeling deep learning speech units vector-quantized variational autoencoders self-supervised manner

发现论文，激发创造

使用离散隐变量神经网络进行语音合成的无监督声学单元发现

本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模，使用自编码器架构进行中间离散化，在训练中，根据模型的特点对语音单元重新建模，以甄别可离散化的语音特征。在测试中，离线甄别采用未知说话者的语音，通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后，使用神经声码器将输出进行合成，比较分别使用分类变分自编码器（CatVAEs）, 矢量量化 VAEs（VQ-VAEs）和直通估计在两种语言上的不同压缩水平，并发现该模型可以在离散表示方面产生竞争性的合成质量

Apr, 2019

使用 WaveNet 自编码器进行无监督的语音表示学习

本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示，并比较三个变体：简单维度约束、高斯变分自编码器和离散量化矢量自编码器，成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。

Jan, 2019

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

仅使用清晰语音的自监督语音质量估计和增强

提出了一种基于自编码器的自监督度量方法（VQScore），用于评估语音质量，并结合领域知识进行模型设计，同时训练自主语音增强模型以改进编码器的鲁棒性。实验结果表明，该方法和增强模型与有监督基线模型具有竞争力。

Feb, 2024

Zerospeech Challenge 2019 中的 VQVAE 无监督单元发现和多尺度 Code2Spec 反转器

我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统，并使用多种聚类算法和压缩方法进行了比较，结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。

May, 2019

神经离散表征学习

本文提出了一种简单而强大的生成模型，学习离散表示，可以生成高质量的图像、视频和语音，同时进行说话人转换和音素无监督学习。

Nov, 2017

自监督离散化语音表示的信息论分析

本文通过信息论的方式将每个语音学类别表示为离散单元的分布，以研究表征和离散化的语音输入与音素这样的抽象语音学类别之间的关系，并应用于两种不同的自监督模型进行研究，揭示了语音学类别的熵反映了底层语音语音变化的可变性，同时确认了这种映射的缺乏直接对应关系。

Jun, 2023

变分自编码器用于学习语音情感的潜在表示：初步研究

该研究提出对于语音情感识别任务，在深度生成模型 VAE 的启发下，使用 VAEs 学习语音信号的潜在表征，并使用这种表征来分类情感，证明通过 VAEs 学习到的特征可产生情感分类的最佳结果。

Dec, 2017

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

本文提出了一种离散潜在空间的顺序先验方法，可以更自然地生成高度连续的语音，通过使用向量量化（VQ）对潜在特征进行离散化，并分别在结果上训练自回归（AR）先验模型，在听觉测试和自动语音识别（ASR）性能的客观指标方面，实验结果表明所提出的模型显著提高了随机样本生成的自然度，而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。

Feb, 2020