Jun, 2022

BYOL-S: 通过启动自助学习的方式学习自监督语音表示

TL;DR本研究使用自我监督学习与深度神经网络等方法,探索提取声音和语音特征的最优表征,提出了多种编码器架构,并探讨了不同的预训练数据集。最后,我们提出了一个新的训练框架,用于结合手工特征和数据驱动特征,得到一个混合音频表征。在 HEAR 毕业设计的听觉场景分类和时间戳检测任务中,我们的实验表明,使用混合模型和卷积变压器作为编码器在大多数任务中都具有更优越的性能。