本文通过信息论的方式将每个语音学类别表示为离散单元的分布,以研究表征和离散化的语音输入与音素这样的抽象语音学类别之间的关系,并应用于两种不同的自监督模型进行研究,揭示了语音学类别的熵反映了底层语音语音变化的可变性,同时确认了这种映射的缺乏直接对应关系。
Jun, 2023
使用变分自编码器实现了对自然语音生成过程的建模与学习,获得了较大突破。利用学习的潜在空间算术操作,实现了对语音的音素内容或说话人身份的无监督修改,无需平行监控数据。
Apr, 2017
该研究提出了 vq-wav2vec 算法,用于学习音频片段的离散表示,并通过自监督上下文预测任务实现。实验结果表明,BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。
Oct, 2019
本文提出了一种新颖的无监督自回归神经模型,用于学习通用的语音表示,通过无需音素或单词边界标签的方法,从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能,并且我们的分析表明,不同级别的语音信息由我们的模型在不同层次上捕获。
Apr, 2019
本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模,使用自编码器架构进行中间离散化,在训练中,根据模型的特点对语音单元重新建模,以甄别可离散化的语音特征。在测试中,离线甄别采用未知说话者的语音,通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后,使用神经声码器将输出进行合成,比较分别使用分类变分自编码器(CatVAEs), 矢量量化 VAEs(VQ-VAEs)和直通估计在两种语言上的不同压缩水平,并发现该模型可以在离散表示方面产生竞争性的合成质量
本文提出了一种简单而强大的生成模型,学习离散表示,可以生成高质量的图像、视频和语音,同时进行说话人转换和音素无监督学习。
Nov, 2017
本文研究了语音感知的分段本质,并提出了一种基于神经隐马尔科夫模型的学习方法,该方法应用于离散的隐变量模型以及自监督学习中,模型中加入了模型变量之间的关联性,从而有效提高了模型的性能。
Oct, 2022
使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元,并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。
Jun, 2022
本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示,并比较三个变体:简单维度约束、高斯变分自编码器和离散量化矢量自编码器,成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。
Jan, 2019
本文提出了一种无需转录或语言监督的训练语音翻译的方法,使用自监督无监督组合的离散量化自动编码器进行训练,然后使用序列到序列模型将源语言语音直接映射到目标语言的离散表示上,最终实现无需先训练或辅助步骤即可直接生成目标语音;该方法是第一次在未经转录的未知语言之间进行纯语音翻译的研究。