Oct, 2019

双胞胎多视图编码器添加共享解码器用于学习声学词嵌入

TL;DR本文提出了通过结合 Siamese 多视图编码器和共享解码器网络,将多视图方法扩展来最大化嵌入空间中声学和文本嵌入之间的关系。使用多视图三元组损失和解码损失进行有区别的培训,我们的方法在 WSJ 数据集上实现了更好的声学词汇鉴别任务表现,平均准确率相对提升了 11.1%。我们还在跨视图单词鉴别和单词级语音识别任务中展示了实验结果。