Jun, 2022

基于语言的音频检索:收敛绑定层和对比损失

TL;DR本文介绍了一种简单,可扩展的架构,将语音和文本编码器结合在一起,并使用对比损失来显著提高基线模型的性能。通过使用预训练模型,无需微调即可在极低的训练内存要求下实现优异的语音检索表现。实验结果表明,采用我们的方法组合可以显著提高基线分数。