本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示,并比较三个变体:简单维度约束、高斯变分自编码器和离散量化矢量自编码器,成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。
Jan, 2019
使用变分自编码器实现了对自然语音生成过程的建模与学习,获得了较大突破。利用学习的潜在空间算术操作,实现了对语音的音素内容或说话人身份的无监督修改,无需平行监控数据。
Apr, 2017
使用关节建模和深度学习研究了如何在自我监督情况下使用关节信息发现语音单元,并在实验中发现联合使用关节和语音学模态可以更准确地表示这些语音学维度。
Jun, 2022
本文针对预训练语音编码器中的表示空间进行了研究,并通过对比自监督学习构建正对,以实现对表示空间的改进,进而在低资源环境下提高了语音处理任务的收敛速度和表现。
Oct, 2022
本文介绍了使用离散潜变量神经网络对无标签语音进行离散子单词建模,使用自编码器架构进行中间离散化,在训练中,根据模型的特点对语音单元重新建模,以甄别可离散化的语音特征。在测试中,离线甄别采用未知说话者的语音,通过已知目标说话者的条件下的解码来获得重构的滤波器组。最后,使用神经声码器将输出进行合成,比较分别使用分类变分自编码器(CatVAEs), 矢量量化 VAEs(VQ-VAEs)和直通估计在两种语言上的不同压缩水平,并发现该模型可以在离散表示方面产生竞争性的合成质量
Apr, 2019
Wav2vec-C 是一种结合语音编码和自监督学习的新的表示学习技术,训练模型在未标记数据和标记数据上表现都很好。
Mar, 2021
本研究首次证明了从语音音频中学习强大的表征,然后在经过转录的语音上进行微调可以胜过最好的半监督方法,而且概念上更简单, 示范了在有限标注数据情况下实现语音识别的可行性。
Jun, 2020
该研究提出了 vq-wav2vec 算法,用于学习音频片段的离散表示,并通过自监督上下文预测任务实现。实验结果表明,BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。
Oct, 2019
本文研究了六种语言中通过序列编码 - 解码模型学习到的声学词嵌入的基本属性,展示了其表示空间中包含单词的绝对时长和说话者信息,且在这些 AWE 的表示空间内,单词的嵌入距离会随着它们的语音差异而增加,且表现出词语起始偏置,证明了 AWE 作为认知科学中一个有潜力的工具,在连接语音处理和词汇记忆方面具有良好的前景。
Apr, 2020
研究使用回归神经网络模型处理图像和其口述描述中语音音素的表示和编码,通过一系列实验分析了音素如何在模型的各层中编码,发现最明显的音素表示在较低层,而注意力机制则显著削弱语音学编码,并使得话语嵌入更加不变。
Jun, 2017