Jun, 2023

同步还是顺序训练?多任务自监督学习系统中语音表示如何协作

TL;DR本文研究了基于 wav2vec 2.0 的自我监督学习和基于 transformer 的视觉接地语音的联合优化作为多任务学习系统,发现先进行 wav2vec 2.0 的串行训练,再进行 VGS 可以提高音频 - 视觉检索的性能,但是并行 SSL-VGS 培训可以降低优化标准之间切换时遗忘的影响。VGS 机制学习到的音位表示可能会比通过 SSL 学习到的音位表示更好地概括跨数据集。