May, 2020

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

TL;DR本文提出两种神经模型,均使用向量量化技术将连续特征映射为有限的编码,旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上,我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交,相对提高超过 30%。