基于语言的音频检索：收敛绑定层和对比损失

Jun, 2022

基于语言的音频检索：收敛绑定层和对比损失

Language-Based Audio Retrieval with Converging Tied Layers and Contrastive Loss

Andrew Koh, Eng Siong Chng

TL;DR本文介绍了一种简单，可扩展的架构，将语音和文本编码器结合在一起，并使用对比损失来显著提高基线模型的性能。通过使用预训练模型，无需微调即可在极低的训练内存要求下实现优异的语音检索表现。实验结果表明，采用我们的方法组合可以显著提高基线分数。

Abstract

In this paper, we tackle the new language-based audio retrieval task proposed in DCASE 2022. Firstly, we introduce a simple, scalable architecture which ties both the audio and text encoder together. Secondly, we

language-based audio retrieval text encoder contrastive loss pretrained models performance

发现论文，激发创造

自动音频字幕和基于语言的音频检索

参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Jul, 2022

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

音频 - 文本检索中的语言沟通

通过使用多语言文本编码器编码文本数据，结合一致集成蒸馏优化音频编码器，我们的方法在英语语音文本检索方面表现出最先进的性能，并且仅使用额外的 10％的语言增强训练数据，也能有效检索其他七种语言的内容。

Jun, 2024

音乐对比语音学习

本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Aug, 2022

文本和语音嵌入匹配：探索基于迁移学习的语音检索策略

本文研究了预训练的深度学习模型在跨模态（文字到音频）检索中的应用，使用浅层神经网络将提取的嵌入映射到公共维度，并探究优化模型的先前培训方法和损失函数选择的重要性。

Oct, 2022

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

上下文中的音频文本检索

本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性，并观察到在上下文检索中，语义映射比时间关系重要。结果表明，该系统在所有指标上均显著提高了双向音频文本检索。

Mar, 2022

基于对比学习的多语言音频与歌词对齐

本文介绍了一种新颖的歌词对齐系统，使用对抗学习导出跨模态嵌入，不仅训练简单、能使用弱标注数据、学习强大的文本模型，而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。

Jun, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023