关键词language-based audio retrieval
搜索结果 - 2
- 自动音频字幕和基于语言的音频检索
参加了 DCASE 2022 比赛的两个子任务:自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验,分别对音频字幕和语音检索任务的最终表现进行了改进。
- 基于语言的音频检索:收敛绑定层和对比损失
本文介绍了一种简单,可扩展的架构,将语音和文本编码器结合在一起,并使用对比损失来显著提高基线模型的性能。通过使用预训练模型,无需微调即可在极低的训练内存要求下实现优异的语音检索表现。实验结果表明,采用我们的方法组合可以显著提高基线分数。