使用自然语言查询的音频检索
本研究提出了三个新的跨模态检索基准,用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练,在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线,并公开了数据集和代码,希望这些基准能够激发有关自由文本查询的音频检索的研究。
Dec, 2021
本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性,并观察到在上下文检索中,语义映射比时间关系重要。结果表明,该系统在所有指标上均显著提高了双向音频文本检索。
Mar, 2022
本文提出了一个新的 Web 音频文本检索框架,使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接,包括多个数据集的使用,取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2%和 16%的提高,对于音频 - 文本检索上的 6%和 23%的提高。
Sep, 2022
参加了 DCASE 2022 比赛的两个子任务:自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验,分别对音频字幕和语音检索任务的最终表现进行了改进。
Jul, 2022
该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一,在 ClothoV2 基准测试中的表现优于当前的最新技术,提高了 5.6 个百分点的 mAP@10。
Aug, 2023
通过使用多语言文本编码器编码文本数据,结合一致集成蒸馏优化音频编码器,我们的方法在英语语音文本检索方面表现出最先进的性能,并且仅使用额外的 10%的语言增强训练数据,也能有效检索其他七种语言的内容。
Jun, 2024
本文研究了预训练的深度学习模型在跨模态(文字到音频)检索中的应用,使用浅层神经网络将提取的嵌入映射到公共维度,并探究优化模型的先前培训方法和损失函数选择的重要性。
Oct, 2022
提出了一种基于内容的音频检索方法,通过引入辅助文本信息来检索与查询音频类似但略有不同的目标音频,并将辅助文本查询修改器的嵌入添加到共享潜在空间中,可以调整检索范围。实验结果表明,该方法比基线更准确地检索配对音频,并获得了共享潜在空间,其中音频差异和相应的文本表示为类似的嵌入向量。
Jul, 2022
我们提出了一种用于文本到音频生成的简单的检索增强方法,通过使用检索到的音频文本数据对 TTA 模型的学习进行指导,从而改善了 AudioLDM 模型在长尾数据集上的性能,在 AudioCaps 数据集上,我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法,能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。
Sep, 2023