Feb, 2019

基于视觉的子词语音单元发现探索

TL;DR研究了如何使用卷积神经网络模型来关联原始语音波形和自然图像场景,探究了解释性的子词语音单位是如何出现的,可以深层次地理解中间层的激活模式,揭示出 Diphone 边界被表浅提取,表明对于字词的识别中该模型在利用这些事件,并提出了多个实验来研究这些事件所编码的信息。