用神经隐马尔可夫模型学习离散语音表示的依赖关系
使用变分自编码器实现了对自然语音生成过程的建模与学习,获得了较大突破。利用学习的潜在空间算术操作,实现了对语音的音素内容或说话人身份的无监督修改,无需平行监控数据。
Apr, 2017
提出一种基于神经网络的生成架构,通过潜在的随机变量来建模具有复杂依赖关系的分层结构顺序数据,将该模型应用于对话响应生成任务并与最近的神经网络架构进行比较,实验证明该模型可以提高生成长输出的准确性并维持上下文信息。
May, 2016
本文通过信息论的方式将每个语音学类别表示为离散单元的分布,以研究表征和离散化的语音输入与音素这样的抽象语音学类别之间的关系,并应用于两种不同的自监督模型进行研究,揭示了语音学类别的熵反映了底层语音语音变化的可变性,同时确认了这种映射的缺乏直接对应关系。
Jun, 2023
本文提出了 ConvDMM,这是一种使用非线性发射和转移函数模型的高斯状态空间模型,并使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型。当在大规模语音数据集上进行训练时,ConvDMM 产生的特征在线性电话分类和在 WSJ 数据集上的识别方面显着优于多个自我监督的特征提取方法,并且可以与 Wav2Vec 和 PASE 等自我监督的方法相辅相成,进一步提高了结果。最后,我们发现,在少量标记训练示例的极低资源之下,ConvDMM 功能使得学习更好的电话识别器比任何其他功能。
Jun, 2020
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
Nov, 2020
该研究通过概率隐变量序列模型,使用前向算法实现连续状态 Kalman 滤波器来学习单词的表示。通过 EM 算法准确地优化参数,使用所学习到的单词嵌入作为标记任务的特征,在标记任务中实现显著的准确度改进,并通过线性递归神经网络通过我们的模型的参数来初始化非线性递归神经网络语言模型,降低了其训练时间和困惑度。
Feb, 2015
本文评估了自我监督语音模型的学习表示与人类语音的差异,结果表明这些模型在语音数据的优化和高维架构的帮助下成功地捕捉了语音的基本音素和音位特征,尤其是 speech-trained HuBERT 模型实现了抽象音位差异的低噪声和低维子空间。
Jun, 2023