一种卷积深度马尔可夫模型用于无监督语音表征学习

Jun, 2020

一种卷积深度马尔可夫模型用于无监督语音表征学习

A Convolutional Deep Markov Model for Unsupervised Speech Representation Learning

Sameer Khurana, Antoine Laurent, Wei-Ning Hsu, Jan Chorowski, Adrian Lancucki...

TL;DR本文提出了 ConvDMM，这是一种使用非线性发射和转移函数模型的高斯状态空间模型，并使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型。当在大规模语音数据集上进行训练时，ConvDMM 产生的特征在线性电话分类和在 WSJ 数据集上的识别方面显着优于多个自我监督的特征提取方法，并且可以与 Wav2Vec 和 PASE 等自我监督的方法相辅相成，进一步提高了结果。最后，我们发现，在少量标记训练示例的极低资源之下，ConvDMM 功能使得学习更好的电话识别器比任何其他功能。

Abstract

probabilistic latent variable models (LVMs) provide an alternative to self-supervised learning approaches for linguistic representation learning from speech. LVMs admit an intuitive probabilistic interpretation where the latent structure shapes the information extracted from the signal

probabilistic latent variable models convolutional deep markov model speech representation learning variational autoencoders unsupervised model

发现论文，激发创造

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

基于生成潜变量模型的语音对比基准测试

该研究发展了一种基于时间的语音 LVM 基准，并将其与实用模型进行了比较，结合使用度量标准以及潜在变量等进行定量的分析。同时，也探究了建立在多个潜在变量层次上的时钟 VAE 模型在提高语音生成表现中的应用。

Feb, 2022

使用深度动态生成语音和噪音模型的无监督语音增强

使用深度动态生成模型和动态变分自动编码器代替非负矩阵分解模型，进行语音增强的无监督学习方法获得了与最先进的方法相竞争的性能，而噪声依赖性训练配置使推理过程效率更高。

Jun, 2023

用神经隐马尔可夫模型学习离散语音表示的依赖关系

本文研究了语音感知的分段本质，并提出了一种基于神经隐马尔科夫模型的学习方法，该方法应用于离散的隐变量模型以及自监督学习中，模型中加入了模型变量之间的关联性，从而有效提高了模型的性能。

Oct, 2022

文本生成的隐式深度潜变量模型

本文提出了一种基于采样的变分分布表示方法，用于自然语言生成中 deep latent variable models，并通过最大化互信息的正则化来解决 posterior collapse 问题，进一步发展了 VAE，并在多个文本生成场景中证明了其有效性和通用性。

Aug, 2019

ClusterDDPM：一种带有去噪扩散概率模型的 EM 聚类框架

利用新型的去噪扩散概率模型（DDPMs）引入创新的期望最大化（EM）框架进行聚类，通过优化学习聚类友好的潜在表示，有效地提高了聚类、无监督条件生成和潜在表示学习的性能。

Dec, 2023

文本的线性动力学系统模型

该研究通过概率隐变量序列模型，使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数，使用所学习到的单词嵌入作为标记任务的特征，在标记任务中实现显著的准确度改进，并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型，降低了其训练时间和困惑度。

Feb, 2015

使用随机变分深层核学习的并行和有限数据语音转换

基于随机变分深度核学习方法的有限数据语音转换模型在使用较少数据的情况下获得更高的平均意见得分、较小的频谱失真和更好的偏好测试结果。

Sep, 2023

无监督神经语音表示学习概述

本文回顾了过去十年中无监督表示学习在语音处理领域的发展，归纳了自监督方法和概率隐变量模型这两类主要模型，提出了全面的分类方法，并讨论了这两类模型。

Mar, 2022

深度变分贝叶斯滤波器：从原始数据进行无监督学习的状态空间模型

利用深度变分贝叶斯滤波器方法，能够进行无监督学习和鉴别潜在马尔可夫状态空间模型。通过随机梯度变分贝叶斯方法，能够克服难以处理的推理分布。能够处理具有时间和空间依赖性的高度非线性输入数据，例如图像序列。实验表明，通过转换实现反向传播可以强制执行状态空间假设，并显著提高潜在嵌入的信息内容和长期预测的精度。

May, 2016