用神经隐马尔可夫模型学习离散语音表示的依赖关系

Oct, 2022

用神经隐马尔可夫模型学习离散语音表示的依赖关系

Learning Dependencies of Discrete Speech Representations with Neural Hidden Markov Models

Sung-Lin Yeh, Hao Tang

TL;DR本文研究了语音感知的分段本质，并提出了一种基于神经隐马尔科夫模型的学习方法，该方法应用于离散的隐变量模型以及自监督学习中，模型中加入了模型变量之间的关联性，从而有效提高了模型的性能。

Abstract

While discrete latent variable models have had great success in self-supervised learning, most models assume that frames are independent. Due to the segmental nature of phonemes in →

discrete latent variable models self-supervised learning speech perception neural hidden markov models phonetic segmentation

发现论文，激发创造

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

自回归联合训练用于离散语音表示学习

通过生成模型和信息论的联合训练，实现了对离散语音表示的学习，发现该方法学习的语音表示与语音单元高度相关

Mar, 2022

一种分层潜变量编码器 - 解码器模型生成对话

提出一种基于神经网络的生成架构，通过潜在的随机变量来建模具有复杂依赖关系的分层结构顺序数据，将该模型应用于对话响应生成任务并与最近的神经网络架构进行比较，实验证明该模型可以提高生成长输出的准确性并维持上下文信息。

May, 2016

自监督离散化语音表示的信息论分析

本文通过信息论的方式将每个语音学类别表示为离散单元的分布，以研究表征和离散化的语音输入与音素这样的抽象语音学类别之间的关系，并应用于两种不同的自监督模型进行研究，揭示了语音学类别的熵反映了底层语音语音变化的可变性，同时确认了这种映射的缺乏直接对应关系。

Jun, 2023

一种卷积深度马尔可夫模型用于无监督语音表征学习

本文提出了 ConvDMM，这是一种使用非线性发射和转移函数模型的高斯状态空间模型，并使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型。当在大规模语音数据集上进行训练时，ConvDMM 产生的特征在线性电话分类和在 WSJ 数据集上的识别方面显着优于多个自我监督的特征提取方法，并且可以与 Wav2Vec 和 PASE 等自我监督的方法相辅相成，进一步提高了结果。最后，我们发现，在少量标记训练示例的极低资源之下，ConvDMM 功能使得学习更好的电话识别器比任何其他功能。

Jun, 2020

使用隐马尔可夫模型进行序列标注的领域自适应

该研究论文介绍了一种基于隐藏马尔科夫模型来学习词汇表示，并使用大量未标记数据将这些方法更好地适用于不同领域数据的方法。

Dec, 2013

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

文本的线性动力学系统模型

该研究通过概率隐变量序列模型，使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数，使用所学习到的单词嵌入作为标记任务的特征，在标记任务中实现显著的准确度改进，并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型，降低了其训练时间和困惑度。

Feb, 2015

自监督语音模型探测音素和音位信息：以送气现象为案例研究

本文评估了自我监督语音模型的学习表示与人类语音的差异，结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征，尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。

Jun, 2023

无监督神经语音表示学习概述

本文回顾了过去十年中无监督表示学习在语音处理领域的发展，归纳了自监督方法和概率隐变量模型这两类主要模型，提出了全面的分类方法，并讨论了这两类模型。

Mar, 2022