Jun, 2022
基于语言的音频检索:收敛绑定层和对比损失
Language-Based Audio Retrieval with Converging Tied Layers and Contrastive Loss
Andrew Koh, Eng Siong Chng
TL;DR本文介绍了一种简单,可扩展的架构,将语音和文本编码器结合在一起,并使用对比损失来显著提高基线模型的性能。通过使用预训练模型,无需微调即可在极低的训练内存要求下实现优异的语音检索表现。实验结果表明,采用我们的方法组合可以显著提高基线分数。