May, 2019

移动设备自监督音频表示学习

TL;DR我们探索了可以在移动设备上部署的自监督模型来学习通用音频表示,具体而言,我们提出了利用频谱图域中的时间上下文的方法。一种方法估计从同一音频剪辑中随机提取的两个短音频片段之间的时间间隔。其他两种方法受 Word2Vec 的启发,旨在从过去和未来切片中重建时间频谱图切片,或者从当前切片重建周围切片的上下文。我们关注使用小型编码器体系结构的评估,这些体系结构可以在推理(在多个下游任务中重复使用共同学习的表示)和训练(与联合学习结合使用时捕获真实数据分布而不损害用户隐私)期间潜在运行于移动设备。我们评估了自我监督学习模型产生的嵌入质量,并表明它们可以被重新用于各种下游任务,甚至对一些任务的性能接近相似大小的全监督模型。